【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

  • 2019-11-13
  • 本文字数:2960 字

    阅读完需:约 10 分钟

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?

过去两年时间,国内短视频日均使用时长增长了 5 倍,仅次于即时通讯,短视频已经成为移动互联网下半场新的流量驱动力。作为短视频领域的佼佼者,快手目前拥有超过 2 亿 DAU、千亿级日均曝光、几百亿级日均播放,以及丰富的社交数据,而快手的推荐算法覆盖了其中的大部分流量,是非常理想的推荐技术试验田。近日,InfoQ 记者有幸采访到了快手推荐算法负责人江鹏,在加入快手之前,他曾任阿里巴巴技术总监,负责手机淘宝(以下简称“手淘“)猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发。同为覆盖过亿用户的工业级推荐业务场景,快手短视频推荐和手淘推荐有哪些异同点?快手短视频推荐在技术实现上有什么独特的难点?未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?让我们来一探究竟。


另外,江鹏还将在 AICon 全球人工智能与机器学习技术大会 北京 2019 进行主题为 《快手短视频推荐挑战与技术方案》 的演讲分享,详细解读快手的多目标排序技术、短视频内容和用户冷启动技术,感兴趣的同学可以关注。


InfoQ:为什么说快手推荐是工业界最大的推荐业务场景之一?您怎么评价推荐系统/算法对于快手的作用?


江鹏:推荐业务的大小其实并没有一个具体的衡量标准,不过它与很多因素有关,比如业务体量和复杂性,体量比如用户量、用户时长、日志量等,复杂性比如业务目标复杂性等。快手目前有超过 2 亿 DAU,千亿级日均曝光,几百亿级日均播放,以及丰富的社交数据,样本数据量级比目前绝大多数推荐业务高 1 到 2 个数量级。同时快手推荐几乎涵盖了推荐领域所有问题,比如用户 &内容冷启动、公平性问题、异构性问题、多样性和惊喜性等等。总体来说,快手推荐是工业界最大的推荐业务场景之一,是非常理想的推荐技术试验田。


推荐覆盖了快手大部分的流量,因此更能影响整体生态,并且直接对 DAU 和 APP 整体时长产生作用。快手的价值观是普惠,推荐系统作为流量分发的抓手为普惠的价值观服务。


InfoQ:从您的个人介绍中,我们了解到您曾在阿里巴巴负责手淘猜你喜欢推荐以及其他多条推荐业务线技术研发,现在您又在快手担任推荐算法的负责人,能否跟我们具体聊聊,手淘推荐和快手推荐存在哪些相同点和差异点?


江鹏:推荐对于手淘和快手影响都非常大,两个推荐业务场景都覆盖了过亿用户,技术上有很多相通的地方,比如整体推荐链路都是基于超大规模在线深度学习技术;推荐差异性主要来自业务差异,短视频推荐有很多需要考虑的特别因素,比如冷启动,包括用户和内容冷启动。在电商推荐里,用户有很多渠道接触到平台的新商品,推荐不是唯一能影响新用户的渠道,因此冷启动并不是一个非常重要的优化项,或者推荐优化对冷启动影响较小。快手短视频推荐影响了快手 APP 大部分流量,直接影响新作品爬坡和用户是否留存,因此冷启动是非常重要的推荐技术,围绕冷启动我们建立了专门的技术团队来负责这项技术的研发。


另外短视频推荐需要更多地考虑生态,优化目标和约束非常多,除了大量的消费侧指标,还有很多生产侧和社交侧指标都是推荐需要关注的。最后,电商推荐数据上结构已经规范化了,类目和 SPU 体系很完善,短视频这类内容推荐,多模态内容理解相对电商推荐会更重。


InfoQ:快手基于短视频做推荐算法,在技术实现上有哪些独特的难点?与手淘推荐相比,二者在技术布局和侧重点上有什么不同?


江鹏:从技术上,电商推荐更侧重 IPV 和 GMV,因此对 CTR 和 CVR 模型要求比较高;快手推荐算法优化的目标更多样,除了各种 XTR,以及短视频特殊的时长预估之外,对整个生态考虑得更多,比如生产、爬坡、负向反馈等等,因此会更侧重多目标排序技术,考虑到多目标情况下在线训练和预估问题,online multi-task learning 基本是标配。另外,出于对短视频业务作品冷启动和时效性的考虑,快手推荐算法对全链路模型实时训练的需求更大,多模态内容理解相对电商推荐也会更重要。新用户冷启动的推荐技术也是快手推荐的重点方向,围绕新用户冷启动有一系列相关技术。


InfoQ:手淘的推荐技术以及您在阿里做推荐技术的经验,有哪些是可以在快手复用和借鉴的?


江鹏:阿里巴巴从 13 年 All in 无线开始,围绕手机淘宝积累了比较多的推荐相关技术,个人有幸经历了这一时期,参与了阿里推荐从 0 到 1 再到发展壮大的过程。在推荐技术上,无论是基础的 CTR/CVR 预估,各类推荐模型,例如图神经网络相关模型,都有借鉴价值。另一方面,业务差异实际上需要在快手做比较强的适配才可能发挥作用。短视频推荐本身的天花板比较高,快手也积累了很多业内领先的推荐相关技术和经验,会逐步在业内推广和交流。


InfoQ:你们如何评估快手短视频推荐算法的效果?主要从哪些指标或因素来考量?针对这些评估指标,快手有哪些对应的技术方案?


江鹏:刚才提到快手推荐算法的评估指标非常多,除了常用的各种 XTR 和时长之外,各种生产和社交指标,还有爬坡、gini、留存等等。针对这些指标,我们研发了基于动态图在线图神经网络框架,对快手亿级节点 x 亿边的大规模异构数据进行实时图表达学习,用于 u2i 和 i2i 的触发召回,在多个评估指标上都拿到了不错的效果。


InfoQ:对于近年来比较热门的知识图谱、强化学习、多模态内容理解等技术的引入,快手短视频推荐做了哪些尝试?能否谈谈引入前后带来的效果有何不同?


江鹏:这些技术在工业界有很多尝试。快手也不例外,比如强化学习在快手新用户推荐中结合 Listwise 取得了不错的效果,是强化在工业界推荐业务中的真实落地。多模态内容理解是快手的基础中台能力,为推荐提供了强有力的支持,特别在新作品冷启动上作用明显。


InfoQ:未来推荐技术领域还有哪些重要的技术趋势和方向值得关注?


江鹏:从技术趋势上看,推荐领域未来方向主要是应用创新技术解决推荐系统的几个典型问题,比如引入强化学习、知识图谱、图神经网络等技术,或者借鉴 NLP 序列建模和多模态的一些新技术方案,解决诸如准确性、多样性、可解释性、数据异构性等问题,离线指标更多的是 RMSE、AUC、precision@topN 等等,线上指标以 CTR、时长为主。另外目前主要解决问题与工业界实际中的问题存在一定 gap,越大规模的推荐系统越需要考虑,在大量优化目标下,怎么评估推荐算法的价值,以及围绕这个价值如何优化,因此与经济学结合也是一个值得关注的方向。


采访嘉宾介绍:


江鹏,快手推荐算法负责人,负责快手主 APP、极速版等业务推荐算法。加入快手前,任阿里巴巴技术总监,负责手淘猜你喜欢推荐以及阿里巴巴多条推荐业务线技术研发,阿里推荐技术演化的主要推动者。在 KDD、WSDM、WWW、RECSYS 等会议发表论文 10 余篇。


福利时刻:


江鹏老师将在 11 月 21-22 的AICon大会上带来更多关于知识图谱的精彩分享,想要跟江老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:


【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践


【菜鸟网络】人工智能在智慧交通物流的技术演进之路


【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展


【微软小冰】人格化对话机器人的构建及在语音场景当中的实践


【百度】AI 大生产时代下的 NLP 技术创新与应用实践


目前大会售票倒计时一周,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-13 08:044337
用户头像
蔡芳芳 InfoQ主编

发布了 781 篇内容, 共 495.1 次阅读, 收获喜欢 2748 次。

关注

评论

发布
暂无评论
发现更多内容

chatGPT是割韭菜的镰刀还是创业的新风口? | 社区征文

迷彩

AIGC 生成式人工智能 三周年征文 三周年连更

阿里P8撰写1500页程序性能调优笔记:GitHub标星79k

程序知音

Java 性能优化 JVM java架构 Java进阶

从0开始:活动打卡小程序开发笔记

CC同学

从0到100:小区物业报修小程序开发笔记

CC同学

神秘的IP地址8.8.8.8地址到底是什么?为什么会被用作DNS服务器地址呢?

wljslmz

DNS 三周年连更

SAPUI5 本地工程中的键值对 sapux - true 的作用

Jerry Wang

前端开发 SAP Fiori SAP UI5 三周年连更

SPFA 算法:实现原理及其应用

繁依Fanyi

算法 SPFA

Wallys AP controllers devices/PQ4019 and IPQ4029 chipsets support 20 km remote transmission

Cindy-wallys

IPQ4019 ipq4029

刘强:作业帮给OceanBase提了九条意见

OceanBase 数据库

数据库 oceanbase

字节首次公开!23年Java后端面试上岸手册 ,竟含全套后端面试考点

Java你猿哥

Java 算法 JVM 多线程 java面试

实战解读:隐钥科技数据库加密解决方案及场景化解析

Lily

太强了!阿里人用138个案例讲明白了Spring全家桶+Docker+MQ

做梦都在改BUG

Java spring 微服务 Spring Cloud Spring Boot

你想要的【微前端】都在这里了! | 京东云技术团队

京东科技开发者

前端 微前端 微前端框架 企业号 5 月 PK 榜 mirco

面试官:如何保证 RabbitMQ 的消息可靠性

做梦都在改BUG

Java 面试 RabbitMQ 消息队列 消息中间件

SpringBoot自动配置原理详解

做梦都在改BUG

Java Spring Boot

Zero-ETL、大模型和数据工程的未来

Baihai IDP

人工智能 大模型 数据工程 企业号 5 月 PK 榜 LLMs

多种文件清理:Disk Cleanup Pro 激活版

真大的脸盆

Mac Mac 软件 磁盘清理 清理工具

数说热点 | 跟着《长月烬明》起飞,今年各地文旅主打的就是一个听劝

MobTech袤博科技

架构师必备!阿里P8耗时6个月手码架构师进阶笔记真的香

Java你猿哥

架构 前端架构 架构设计 架构师 后端架构

利用Python分析快手APP全国大学生用户数据(2022 年初赛第四题 )

繁依Fanyi

大数据

分享:集群吞吐量以1抵5,车企MySQL八大痛点的解决方案

OceanBase 数据库

数据库 oceanbase

广立微大数据平台全线升级 为芯片全生命周期保驾护航

科技热闻

GPIO实验-主芯片GPIO输出实验

鸿蒙之旅

OpenHarmony 三周年连更

MySQL 并行复制方案演进历史及原理分析

Java你猿哥

Java MySQL ssm 并行复制 主从延迟

CH32V307V-EVT-R1 简单上手入门

繁依Fanyi

嵌入式

【OpenAI】私有框架代码生成实践 | 京东云技术团队

京东科技开发者

openai ChatGPT ChatGPT4 企业号 5 月 PK 榜 私有框架

Github高赞!Alibaba最新亿级并发系统架构(2023 版全彩小册)

Java你猿哥

Java 架构 分布式 高并发 架构设计

Spring Security 中的基本认证过滤器链

Java架构历程

Java spring security 三周年连更

主流框架都用SPI机制,看一下他们的区别和原理

Java你猿哥

ssm 框架 JavaSPI Spring SPI Dubbo SPI

未来市场主流的五大LED显示屏

Dylan

技术 方案 LED显示屏

一条SQL如何被MySQL架构中的各个组件操作执行的

华为云开发者联盟

sql 开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

同为工业界最大的推荐业务场景,快手短视频推荐与淘宝推荐有何不同?_AI&大模型_蔡芳芳_InfoQ精选文章