东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

  • 2019-11-13
  • 本文字数:2960 字

    阅读完需:约 10 分钟

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

过去两年时间,国内短视频日均使用时长增长了 5 倍,仅次于即时通讯,短视频已经成为移动互联网下半场新的流量驱动力。作为短视频领域的佼佼者,快手目前拥有超过 2 亿 DAU、千亿级日均曝光、几百亿级日均播放,以及丰富的社交数据,而快手的推荐算法覆盖了其中的大部分流量,是非常理想的推荐技术试验田。近日,InfoQ 记者有幸采访到了快手推荐算法负责人江鹏,在加入快手之前,他曾任阿里巴巴技术总监,负责手机淘宝(以下简称“手淘“)猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发。同为覆盖过亿用户的工业级推荐业务场景,快手短视频推荐和手淘推荐有哪些异同点?快手短视频推荐在技术实现上有什么独特的难点?未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?让我们来一探究竟。


另外,江鹏还将在 AICon 全球人工智能与机器学习技术大会 北京 2019 进行主题为 《快手短视频推荐挑战与技术方案》 的演讲分享,详细解读快手的多目标排序技术、短视频内容和用户冷启动技术,感兴趣的同学可以关注。


InfoQ:为什么说快手推荐是工业界最大的推荐业务场景之一?您怎么评价推荐系统/算法对于快手的作用?


江鹏:推荐业务的大小其实并没有一个具体的衡量标准,不过它与很多因素有关,比如业务体量和复杂性,体量比如用户量、用户时长、日志量等,复杂性比如业务目标复杂性等。快手目前有超过 2 亿 DAU,千亿级日均曝光,几百亿级日均播放,以及丰富的社交数据,样本数据量级比目前绝大多数推荐业务高 1 到 2 个数量级。同时快手推荐几乎涵盖了推荐领域所有问题,比如用户 &内容冷启动、公平性问题、异构性问题、多样性和惊喜性等等。总体来说,快手推荐是工业界最大的推荐业务场景之一,是非常理想的推荐技术试验田。


推荐覆盖了快手大部分的流量,因此更能影响整体生态,并且直接对 DAU 和 APP 整体时长产生作用。快手的价值观是普惠,推荐系统作为流量分发的抓手为普惠的价值观服务。


InfoQ:从您的个人介绍中,我们了解到您曾在阿里巴巴负责手淘猜你喜欢推荐以及其他多条推荐业务线技术研发,现在您又在快手担任推荐算法的负责人,能否跟我们具体聊聊,手淘推荐和快手推荐存在哪些相同点和差异点?


江鹏:推荐对于手淘和快手影响都非常大,两个推荐业务场景都覆盖了过亿用户,技术上有很多相通的地方,比如整体推荐链路都是基于超大规模在线深度学习技术;推荐差异性主要来自业务差异,短视频推荐有很多需要考虑的特别因素,比如冷启动,包括用户和内容冷启动。在电商推荐里,用户有很多渠道接触到平台的新商品,推荐不是唯一能影响新用户的渠道,因此冷启动并不是一个非常重要的优化项,或者推荐优化对冷启动影响较小。快手短视频推荐影响了快手 APP 大部分流量,直接影响新作品爬坡和用户是否留存,因此冷启动是非常重要的推荐技术,围绕冷启动我们建立了专门的技术团队来负责这项技术的研发。


另外短视频推荐需要更多地考虑生态,优化目标和约束非常多,除了大量的消费侧指标,还有很多生产侧和社交侧指标都是推荐需要关注的。最后,电商推荐数据上结构已经规范化了,类目和 SPU 体系很完善,短视频这类内容推荐,多模态内容理解相对电商推荐会更重。


InfoQ:快手基于短视频做推荐算法,在技术实现上有哪些独特的难点?与手淘推荐相比,二者在技术布局和侧重点上有什么不同?


江鹏:从技术上,电商推荐更侧重 IPV 和 GMV,因此对 CTR 和 CVR 模型要求比较高;快手推荐算法优化的目标更多样,除了各种 XTR,以及短视频特殊的时长预估之外,对整个生态考虑得更多,比如生产、爬坡、负向反馈等等,因此会更侧重多目标排序技术,考虑到多目标情况下在线训练和预估问题,online multi-task learning 基本是标配。另外,出于对短视频业务作品冷启动和时效性的考虑,快手推荐算法对全链路模型实时训练的需求更大,多模态内容理解相对电商推荐也会更重要。新用户冷启动的推荐技术也是快手推荐的重点方向,围绕新用户冷启动有一系列相关技术。


InfoQ:手淘的推荐技术以及您在阿里做推荐技术的经验,有哪些是可以在快手复用和借鉴的?


江鹏:阿里巴巴从 13 年 All in 无线开始,围绕手机淘宝积累了比较多的推荐相关技术,个人有幸经历了这一时期,参与了阿里推荐从 0 到 1 再到发展壮大的过程。在推荐技术上,无论是基础的 CTR/CVR 预估,各类推荐模型,例如图神经网络相关模型,都有借鉴价值。另一方面,业务差异实际上需要在快手做比较强的适配才可能发挥作用。短视频推荐本身的天花板比较高,快手也积累了很多业内领先的推荐相关技术和经验,会逐步在业内推广和交流。


InfoQ:你们如何评估快手短视频推荐算法的效果?主要从哪些指标或因素来考量?针对这些评估指标,快手有哪些对应的技术方案?


江鹏:刚才提到快手推荐算法的评估指标非常多,除了常用的各种 XTR 和时长之外,各种生产和社交指标,还有爬坡、gini、留存等等。针对这些指标,我们研发了基于动态图在线图神经网络框架,对快手亿级节点 x 亿边的大规模异构数据进行实时图表达学习,用于 u2i 和 i2i 的触发召回,在多个评估指标上都拿到了不错的效果。


InfoQ:对于近年来比较热门的知识图谱、强化学习、多模态内容理解等技术的引入,快手短视频推荐做了哪些尝试?能否谈谈引入前后带来的效果有何不同?


江鹏:这些技术在工业界有很多尝试。快手也不例外,比如强化学习在快手新用户推荐中结合 Listwise 取得了不错的效果,是强化在工业界推荐业务中的真实落地。多模态内容理解是快手的基础中台能力,为推荐提供了强有力的支持,特别在新作品冷启动上作用明显。


InfoQ:未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?


江鹏:从技术趋势上看,推荐领域未来方向主要是应用创新技术解决推荐系统的几个典型问题,比如引入强化学习、知识图谱、图神经网络等技术,或者借鉴 NLP 序列建模和多模态的一些新技术方案,解决诸如准确性、多样性、可解释性、数据异构性等问题,离线指标更多的是 RMSE、AUC、precision@topN 等等,线上指标以 CTR、时长为主。另外目前主要解决问题与工业界实际中的问题存在一定 gap,越大规模的推荐系统越需要考虑,在大量优化目标下,怎么评估推荐算法的价值,以及围绕这个价值如何优化,因此与经济学结合也是一个值得关注的方向。


采访嘉宾介绍:


江鹏,快手推荐算法负责人,负责快手主 APP、极速版等业务推荐算法。加入快手前,任阿里巴巴技术总监,负责手淘猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发,阿里推荐技术演化的主要推动者。在 KDD、WSDM、WWW、RECSYS 等会议发表论文 10 余篇。


福利时刻:


江鹏老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟江老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:


【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践


【菜鸟网络】人工智能在智慧交通物流的技术演进之路


【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展


【微软小冰】人格化对话机器人的构建及在语音场景当中的实践


【百度】AI 大生产时代下的 NLP 技术创新与应用实践


目前大会售票倒计时一周,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-13 08:044333
用户头像
蔡芳芳 InfoQ主编

发布了 780 篇内容, 共 492.6 次阅读, 收获喜欢 2747 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL数据库,RDBMS术语,使用说明和报错解决的详细讲解?

百度搜索:蓝易云

MySQL 云计算 运维 RDBMS 云服务器

打工人福音:未来每周只需工作3天?比尔盖茨这样评价AI...

代码生成器研究

为什么越来越多的企业选择IT外包服务?

Ogcloud

外包 IT 外包公司 外包项目 IT 运维

Open AI 砸了所有人的饭碗吗?

代码生成器研究

音视频FAQ(一):视频直播卡顿

ZEGO即构

CDN RTC 实时音视频 音视频技术 直播间

加速数智化升级,华为云这款服务器让企业上云更轻松

轶天下事

ubuntu20.4服务器安装mysql社区版并开放3306端口

百度搜索:蓝易云

MySQL 云计算 Linux ubuntu 云服务器

低代码就是不写代码吗?到底什么是真正的低代码平台?

代码生成器研究

华为云耀云服务器L实例:中小企业小程序开发的高效解决方案

YG科技

稳定可靠,华为云服务器引领数字化时代

YG科技

如何绕过某讯手游保护系统并从内存中获取Unity3D引擎的Dll文件

雪奈椰子

华为云耀云服务器L实例:企业建站与小程序开发的新纪元

YG科技

从零实现一个在线相亲APP(缓解相亲尴尬的神器)

音视频开发_AIZ

IT外包服务的未来发展趋势

Ogcloud

IT 外包公司 外包项目 IT 运维

低代码可以减少程序员哪些工作?

代码生成器研究

关于 SLO,我们需要了解什么?

观测云

SLA SLO

SQL 数据操作技巧:SELECT INTO、INSERT INTO SELECT 和 CASE 语句详解

小万哥

MySQL 数据库 程序员 sql 后端开发

编程那么难,为什么不弄个大众一学就会的计算机

代码生成器研究

带键扫的LED专用驱动方案

攻城狮Wayne

小程序开发新选择!华为云耀云服务器L实例快人一步

YG科技

MongoDB助力腾讯游戏 优化游戏开发体验

技术咖和技术渣

大模型+搜索:一盘跳棋和三位选手

脑极体

AI

华为云耀云服务器L实例:中小企业数字化转型的加速器

轶天下事

StarRocks 存算分离最佳实践,让降本增效更简单

StarRocks

数据库 数据分析 StarRocks

掌握HarmonyOS框架的ArkTs如何管理和共享状态数据

华为云开发者联盟

开发 华为云 华为云开发者联盟 HarmonyOS框架

直播预告丨大模型如何在健康医疗中挖出大大的花?

京东科技开发者

人工智能 大模型

面向对象编程的弊端是什么?

代码生成器研究

2023 IoTDB 用户大会倒计时 3 天 | 1 分钟让你了解 IoTDB!

Apache IoTDB

什么是真正的低代码?

代码生成器研究

项目管理必备的时间轴软件!这10款协同工具有口皆碑。

彭宏豪95

项目管理 效率工具 在线白板 办公软件 绘图软件

华为云耀云服务器L实例:中小企业数字化转型的关键伙伴

轶天下事

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?_AI&大模型_蔡芳芳_InfoQ精选文章