写点什么

Dropbox 如何改进内容建议模型

  • 2019-12-20
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Dropbox如何改进内容建议模型

Dropbox 机器学习团队在最近的博客中分享了他们内容建议content suggestion)功能背后的模型,介绍了该模型如何处理不同类型的内容,如何将文件夹建议合并到现有的文件建议模型中,以及如何处理基于云的第三方内容。


该内容建议功能于今年4月份开始推出,在 Dropbox 主页的顶部添加了一个“建议文件”部分,它旨在方便用户在使用 Dropbox 时能快速访问其所要查找的文件,这与谷歌云端硬盘的“快速访问”功能非常相似。


该功能最初只支持文件推荐,并且是基于一个相对较浅的神经网络模型,该模型使用各种显著信号以及与任务无关的 Dropbox 实体嵌入(其中包括 Dropbox 用户、文件和文件夹的深层语义向量表示),来预测基于启发式候选集文件的 CTR(点击率)。这种方法类似于谷歌“快速访问”背后的机器学习模型所使用的方法


最近对内容建议模型的改进包含了几个新的组件, 以应对不同的挑战:


为了改进现有文件建议模型的预测功能,模型使用文件名和扩展名合并了更多有关文件的信息。文件扩展名被合并到特征向量中,但它不是通过使用简单的 one-hot 编码方案实现的,而是通过学习一个嵌入空间来实现的,在这个嵌入空间中语义相似的文件扩展名(例如 .jpg 和 .png)是紧密相连的,从而可以使模型从分布不均的数据中学习。此外,文件名的嵌入是通过获取 char-RNN 的状态向量来创建的,每次只摄取文件名的一个字符,以帮助检测临时文件名。


通过开发单独的模型,可以为合作方最近所形成的第三方基于云的文件(如 Google DocsMicrosoft Office 365 的文件,这些文件会较少受到训练数据的影响)提供支持建议。同样的方法也可用于支持 Dropbox Paper 文档的建议。


添加了对文件夹建议的支持,它是利用经常使用和最近使用的文件作为信号来建议其父文件夹可能就是一个很好的备选的方式来实现的。与第三方文件一样,Dropbox 也为文件建议训练了一个单独的模型,训练数据来自于使用启发式模型运行的在线实验以及 Dropbox 中无人监督的用户事件数据集,这两者都是 Dropbox 机器学习基础设施的重要组成部分。


最后,通过学习每个模型所生成的分数到给定分数的建议项的预期 CTR 的映射,将各个不同的模型组合成一个单一模型。 由于 CTR 在所有子模型中都具有可比性,因此所有模型的建议都可以根据它们的预期 CTR 进行排序。


这项产品改进工作可以看作是 Dropbox 智能计划( Dropbox intelligence initiative ,DBXi)的另一个方面,Dropbox 智能计划是该公司将人工智能整合到其所有产品和服务中的尝试。这项工作还包括自动图像文本识别功能,它能够对文档照片(包括收据和字段报告)进行光学字符检测,使用户能够搜索更多类型的内容,并将机器学习模型集成到 Dropbox 的搜索功能中


处理各种类型内容的能力有助于该公司将 Spaces 产品定位为核心员工协作工具,并与 Slack、Google Drive 和 Microsoft Teams 等知名产品形成竞争。


原文链接:


Dropbox Predicts What File You Need Next With Content-Specific ML Pipelines


2019-12-20 09:001412

评论

发布
暂无评论
发现更多内容

天翼云基于 KubeEdge 的大规模 CDN 场景落地实践

华为云原生团队

开源 云原生 边缘计算 边缘技术 边缘云

2022 年了,还不了解 PWA ? 教你 VuePress 博客如何快速兼容 PWA

冴羽

JavaScript Vue 前端 vuepress PWA

如何编写有效的常见问题解答(内附 5 个最佳示例)

小炮

在线TOML转YAML工具

入门小站

工具

改进DevSecOps框架的 5 大关键技术

禅道项目管理

DevOps 敏捷 自动化

“东数西算”超级工程上马,利好云计算但暗藏汹涌

行云管家

云计算 混合云 多云 东数西算

Web 键盘输入法应用开发指南 (6) —— 开发实战(一)

天择

JavaScript 键盘 实战 输入法 3月月更

Amazon Graviton2上数据压缩算法性能比较

亚马逊云科技 (Amazon Web Services)

数据 应用性能

企业如何快速地制作出电子产品宣传册?

小炮

数据孤岛下的新破局 Real Time DaaS:面向 AP+TP 业务的数据平台架构

tapdata

数据中台 数据仓库 异构数据 Real Time DaaS DaaS

基于 XuperChain 的区块链项目从 0 到 N(二)

刘旭东

区块链 XuperChain

教你Mac下终端配置iterm2+oh-my-zsh+powerlevel10k

锋享前端

Mac iterm2

全网渗透率达80%!“耳朵经济”将成为当下市场的流行趋势

易观分析

耳朵经济 在线音频

【专访蓝景科技】5G+实时云渲染赋能数字孪生,共建元宇宙

3DCAT实时渲染

5G 数字孪生 实时云渲染

Linux之traceroute命令

入门小站

Linux

CRM系统帮助降低业务成本的方式

低代码小观

企业管理 CRM 企业管理系统 CRM系统 客户关系管理系统

三步教企业搭建产品帮助中心

小炮

LigaAI完成A轮融资,加速打造全新的智能研发协作平台

LigaAI

行业资讯 智能 LigaAI A轮融资 研发协作平台

服务器被入侵了?反手溯源出入侵者画像【网络安全】

H

黑客 网络安全

FinClip 黑客马拉松正式开赛,码力集结,等你来战!

Speedoooo

小程序生态 hackathon APP开发 黑客马拉松 黑客松

Apache SeaTunnel & Kyuubi 联合 Meetup | 见证中国大数据崛起!

Apache SeaTunnel

大数据 开源 大数据平台 apache 社区 Apache SeaTunnel

ModStartCMS 模块化建站系统 Laravel 9.0 版 v3.3.0

ModStart开源

OAuthApp H5 应用开发/云托管平台

unclewang

微服务 前端 .net core H5制作 SaaS平台

2个动作,让研发效率提升120%,代码减少50%

云智慧AIOps社区

敏捷开发 代码优化 开发规范 研发提效 研发效率

大咖说|制造业发展趋势:“专精特新”与数字化转型

大咖说

阿里巴巴 阿里云 数字化 中制智库

【51单片机】介绍

謓泽

单片机 3月月更 51

分库分表中间件的高可用实践讲解

Linux服务器开发

高可用 高并发 中间件 Linux服务器开发 Linux后台开发

你可以不知道KFC疯狂星期四,但不能不知道InfoQ会员周!七天限时福利冲冲冲!

InfoQ写作社区官方

热门活动 InfoQ会员周

视频渲染靠cpu还是显卡 视频渲染的作用是什么

懒得勤快

4种常见分支模式解析及优劣对比 | 研发效能提升36计

阿里云云效

阿里云 云原生 研发团队 研发 分支管理

项目启动 | 德荣医疗携手用友iuap共谱数字化转型新篇章

用友BIP

用友 用友iuap

Dropbox如何改进内容建议模型_AI&大模型_Shay Palachy_InfoQ精选文章