【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Dropbox 如何改进内容建议模型

  • 2019-12-20
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Dropbox如何改进内容建议模型

Dropbox 机器学习团队在最近的博客中分享了他们内容建议content suggestion)功能背后的模型,介绍了该模型如何处理不同类型的内容,如何将文件夹建议合并到现有的文件建议模型中,以及如何处理基于云的第三方内容。


该内容建议功能于今年4月份开始推出,在 Dropbox 主页的顶部添加了一个“建议文件”部分,它旨在方便用户在使用 Dropbox 时能快速访问其所要查找的文件,这与谷歌云端硬盘的“快速访问”功能非常相似。


该功能最初只支持文件推荐,并且是基于一个相对较浅的神经网络模型,该模型使用各种显著信号以及与任务无关的 Dropbox 实体嵌入(其中包括 Dropbox 用户、文件和文件夹的深层语义向量表示),来预测基于启发式候选集文件的 CTR(点击率)。这种方法类似于谷歌“快速访问”背后的机器学习模型所使用的方法


最近对内容建议模型的改进包含了几个新的组件, 以应对不同的挑战:


为了改进现有文件建议模型的预测功能,模型使用文件名和扩展名合并了更多有关文件的信息。文件扩展名被合并到特征向量中,但它不是通过使用简单的 one-hot 编码方案实现的,而是通过学习一个嵌入空间来实现的,在这个嵌入空间中语义相似的文件扩展名(例如 .jpg 和 .png)是紧密相连的,从而可以使模型从分布不均的数据中学习。此外,文件名的嵌入是通过获取 char-RNN 的状态向量来创建的,每次只摄取文件名的一个字符,以帮助检测临时文件名。


通过开发单独的模型,可以为合作方最近所形成的第三方基于云的文件(如 Google DocsMicrosoft Office 365 的文件,这些文件会较少受到训练数据的影响)提供支持建议。同样的方法也可用于支持 Dropbox Paper 文档的建议。


添加了对文件夹建议的支持,它是利用经常使用和最近使用的文件作为信号来建议其父文件夹可能就是一个很好的备选的方式来实现的。与第三方文件一样,Dropbox 也为文件建议训练了一个单独的模型,训练数据来自于使用启发式模型运行的在线实验以及 Dropbox 中无人监督的用户事件数据集,这两者都是 Dropbox 机器学习基础设施的重要组成部分。


最后,通过学习每个模型所生成的分数到给定分数的建议项的预期 CTR 的映射,将各个不同的模型组合成一个单一模型。 由于 CTR 在所有子模型中都具有可比性,因此所有模型的建议都可以根据它们的预期 CTR 进行排序。


这项产品改进工作可以看作是 Dropbox 智能计划( Dropbox intelligence initiative ,DBXi)的另一个方面,Dropbox 智能计划是该公司将人工智能整合到其所有产品和服务中的尝试。这项工作还包括自动图像文本识别功能,它能够对文档照片(包括收据和字段报告)进行光学字符检测,使用户能够搜索更多类型的内容,并将机器学习模型集成到 Dropbox 的搜索功能中


处理各种类型内容的能力有助于该公司将 Spaces 产品定位为核心员工协作工具,并与 Slack、Google Drive 和 Microsoft Teams 等知名产品形成竞争。


原文链接:


Dropbox Predicts What File You Need Next With Content-Specific ML Pipelines


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-12-20 09:001140

评论

发布
暂无评论
发现更多内容

【Linux 基础入门 + Java项目部署】

百度搜索:蓝易云

Java 云计算 Linux 运维 云服务器

StoneDB顺利通过中科院软件所 2023 开源之夏 结项审核

StoneDB

MySQL 数据库 HTAP StoneDB

一张图厘清各大操作系统的发展脉络

巫山老妖

微信团队分享:详解iOS版微信视频号直播中因帧率异常导致的功耗问题

JackJiang

网络编程 即时通讯 IM

任福继院士:基于交叉学科的研究将成主流,算力平台和计算人才是自主创新关键

Geek_2d6073

故障发现、定位提效超70%,去哪儿可观测体系做了哪些优化?

TakinTalks稳定性社区

为何选择独立服务器?稳定、高效、安全等优势一览

一只扑棱蛾子

独立服务器

更快更省更好用!天翼云云原生一体机iStack打通物云最后一公里!

Geek_2d6073

TiDB x 云盛海宏丨加速精细化运营,云海零售系统的架构演进

TiDB 社区干货传送门

实践案例

如何搞砸一场面试?

王磊

Java 面试

华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

精彩回顾|从架构到实践,AntDB融合型数据库揭秘

亚信AntDB数据库

数据库 AntDB AntDB数据库

Gitlab配置mirrorRepository 镜像仓库

javaNice

Java gitlab

KiCon Asia 2023完美落幕,助力Kicad生态繁荣,华秋在行动

华秋电子

kicad

万界星空科技云MES管理系统和ERP的对接

万界星空科技

数字化转型 mes 云mes 万界星空科技 万界星空科技mes

同城双机房公网环境下搭建TIDB集群

TiDB 社区干货传送门

数据库架构设计

体验函数计算 FC 3.0,写测评赢取索尼头戴式耳机

Serverless Devs

云计算 Serverless AIGC

Apache环境php安装扩展swoole。

百度搜索:蓝易云

Apache 云计算 Linux swoole 云服务器

苹果Mac动态壁纸:Dynamic Wallpaper 16.7中文版

繁星

动态壁纸 Dynamic Wallpaper

赛车竞速游戏:art of rally拉力赛车 for Mac 1.5.0中文版

繁星

赛车竞速游戏 Art of Rally

TiDB x CAPCOM丨为在线游戏提供灵活、可靠、可扩展的数据库服务

TiDB 社区干货传送门

实践案例

来文心中国行厦门站,感受大模型落地生花的进展!

飞桨PaddlePaddle

文心一言 文心中国行

外包的鄙视链,背后原因是什么

老张

外包 竞争力 核心竞争力

LED显示屏防护等级知识讲解

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家 等级

本地MQTT协议消息服务远程连接教程介绍

EquatorCoco

Linux 本地化 mqtt 协议解析

TiDB Cloud 上 Tiflash 列存功能初体验

TiDB 社区干货传送门

版本测评 性能测评 新版本/特性解读

同城双机房公网+阿里云ECS搭建混合云TIDB集群

TiDB 社区干货传送门

数据库架构设计

从商业增长到自然增长,OPPO广告联盟为开发者开辟增长新路径

Geek_2d6073

欢迎提报 | 2023年龙蜥社区优秀贡献者评选正式启动

OpenAnolis小助手

开源 操作系统 龙蜥社区 最佳案例 突出贡献

CodeWhisperer--手把手教你使用一个十分强大的工具

亚马逊云科技 (Amazon Web Services)

Python 人工智能 云上探索实验室 Amazon CodeWhisperer Amazon Cloud9

平凯星辰 TiDB 获评 “2023 中国金融科技守正创新扬帆计划” 十佳优秀实践奖

编程猫

Dropbox如何改进内容建议模型_AI&大模型_Shay Palachy_InfoQ精选文章