AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Dropbox 如何改进内容建议模型

  • 2019-12-20
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Dropbox如何改进内容建议模型

Dropbox 机器学习团队在最近的博客中分享了他们内容建议content suggestion)功能背后的模型,介绍了该模型如何处理不同类型的内容,如何将文件夹建议合并到现有的文件建议模型中,以及如何处理基于云的第三方内容。


该内容建议功能于今年4月份开始推出,在 Dropbox 主页的顶部添加了一个“建议文件”部分,它旨在方便用户在使用 Dropbox 时能快速访问其所要查找的文件,这与谷歌云端硬盘的“快速访问”功能非常相似。


该功能最初只支持文件推荐,并且是基于一个相对较浅的神经网络模型,该模型使用各种显著信号以及与任务无关的 Dropbox 实体嵌入(其中包括 Dropbox 用户、文件和文件夹的深层语义向量表示),来预测基于启发式候选集文件的 CTR(点击率)。这种方法类似于谷歌“快速访问”背后的机器学习模型所使用的方法


最近对内容建议模型的改进包含了几个新的组件, 以应对不同的挑战:


为了改进现有文件建议模型的预测功能,模型使用文件名和扩展名合并了更多有关文件的信息。文件扩展名被合并到特征向量中,但它不是通过使用简单的 one-hot 编码方案实现的,而是通过学习一个嵌入空间来实现的,在这个嵌入空间中语义相似的文件扩展名(例如 .jpg 和 .png)是紧密相连的,从而可以使模型从分布不均的数据中学习。此外,文件名的嵌入是通过获取 char-RNN 的状态向量来创建的,每次只摄取文件名的一个字符,以帮助检测临时文件名。


通过开发单独的模型,可以为合作方最近所形成的第三方基于云的文件(如 Google DocsMicrosoft Office 365 的文件,这些文件会较少受到训练数据的影响)提供支持建议。同样的方法也可用于支持 Dropbox Paper 文档的建议。


添加了对文件夹建议的支持,它是利用经常使用和最近使用的文件作为信号来建议其父文件夹可能就是一个很好的备选的方式来实现的。与第三方文件一样,Dropbox 也为文件建议训练了一个单独的模型,训练数据来自于使用启发式模型运行的在线实验以及 Dropbox 中无人监督的用户事件数据集,这两者都是 Dropbox 机器学习基础设施的重要组成部分。


最后,通过学习每个模型所生成的分数到给定分数的建议项的预期 CTR 的映射,将各个不同的模型组合成一个单一模型。 由于 CTR 在所有子模型中都具有可比性,因此所有模型的建议都可以根据它们的预期 CTR 进行排序。


这项产品改进工作可以看作是 Dropbox 智能计划( Dropbox intelligence initiative ,DBXi)的另一个方面,Dropbox 智能计划是该公司将人工智能整合到其所有产品和服务中的尝试。这项工作还包括自动图像文本识别功能,它能够对文档照片(包括收据和字段报告)进行光学字符检测,使用户能够搜索更多类型的内容,并将机器学习模型集成到 Dropbox 的搜索功能中


处理各种类型内容的能力有助于该公司将 Spaces 产品定位为核心员工协作工具,并与 Slack、Google Drive 和 Microsoft Teams 等知名产品形成竞争。


原文链接:


Dropbox Predicts What File You Need Next With Content-Specific ML Pipelines


2019-12-20 09:001345

评论

发布
暂无评论
发现更多内容

FunTester测试框架Redis性能测试实践

FunTester

redis 性能测试 测试框架 FunTester

ironSource 出品 AdQuality 解决方案全新升级,助力开发者管理应用内广告

在 CentOS 7上安装Sonatype Nexus Repository OSS

吴脑的键客

nexus Ops

网易24周年,竟拿出内部进阶必备的网络协议笔记,给程序员发福利

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

腾讯出品526页异步非阻塞通信领域巅峰之作:Netty IO核心技术指南

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

来自阿里的图解计算机、网络、操作系统PDF,竟在GitHub点赞最高

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

李沐亚马逊资深首席科学家 - 动手学深度学习 易筋 ARTS 打卡 Week 64

John(易筋)

ARTS 打卡计划

火爆全网的Spring Security手册及源码笔记,在Github上标星103K

编程 架构 面试 程序人生 金九银十

Java中级笔试题百度文库,基础+进阶+高级,

Java 程序员 后端

视频剪辑软件对比之:会声会影与剪映

懒得勤快

MySQL连接控制插件介绍

Simon

MySQL

阿里最受追捧的「中高级技术核心」,助我拿下菜鸟offer,附面经

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

偷偷翻开学妹笔记本,发现绝密Spring Cloud Alibaba笔记

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

IOS技术分享| any自习室场景实现

anyRTC开发者

音视频 在线教育 移动开发 ios技术分享

计算机操作系统学习笔记 | 进程

Regan Yue

操作系统 进程 9月日更

过二级等保需要哪些安全设备?多少钱?

行云管家

数据库 网络安全 等保 等级保护

原地起飞!字节工程师开源了GitHub的Java开发百宝手册后,被骂哭

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

【万字干货】OpenMetric与时序数据库存储模型分析

华为云开发者联盟

OLAP 时序数据库 index Metric Timeseries

Redis缓存那点破事 | 绝杀面试官 25 问!

Java redis 架构 后端 计算机

字节大佬的「算法界Offer收割机」火爆Github,短时间获上万star

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

java中间件、数据库与spring框架,Java性能优化最佳实践,

Java 程序员 后端

Java中高级岗面试为何越来越难,都2021年了,还不会Redis?

Java 程序员 后端

Java中高级面试必知必会,高级Java开发面试解答之线程篇,

Java 程序员 后端

常见的IT自动化运维工具有哪些?推荐一款好用的?

行云管家

阿里云 运维 IT运维 PSSH

webrtc Fec kPacketMaskRandomTbl 概述

webrtc developer

webrtc、 fec mask

2021 CHIMA观感:医疗信息化发展的几个趋势,值得关注

菜根老谭

医疗信息化

少女银四失足,偶得“阿里Java神级题库(25专题)”,金九稳了

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

移动端短语音消息音频格式选择

轻口味

android 音视频 9月日更

Java中级开发笔试题及答案,成功入职腾讯月薪45K,

Java 程序员 后端

Java中级开发面试题,只需一篇文章吃透Java多线程技术,

Java 程序员 后端

Java中高级岗面试为何越来越难,学习Java开发的步骤,

Java 程序员 后端

Dropbox如何改进内容建议模型_AI&大模型_Shay Palachy_InfoQ精选文章