写点什么

中科大王皓:当前推荐大模型急需解决的几大难题

王皓

  • 2024-08-14
    北京
  • 本文字数:3321 字

    阅读完需:约 11 分钟

中科大王皓:当前推荐大模型急需解决的几大难题

大模型已经广泛应用于推荐系统,它们通过处理海量数据,能够精准地捕捉和预测用户的兴趣偏好,为用户提供个性化的推荐服务。最新的研究工作表明,与传统推荐算法相比,基于大模型的推荐系统在性能上实现了质的飞跃。然而,大模型的有效性并非没有挑战,例如大模型的训练需要依赖于高质量的数据。数据的质量直接影响到模型的学习和预测能力。数据的收集、清洗和处理过程复杂且成本高昂。


在 8 月 18-19 日的 AICon 上海站,InfoQ 邀请了中国科学技术大学特任副研究员王皓就这些问题进行深入分析,他将以《大模型在推荐系统中的落地实践》为主题进行分享。通过他的分享,你可以了解大模型在推荐系统相关现状以及了解大模型在推荐系统中的相关实践尝试与经验。本文为会前采访文章,希望对你了解大模型搜索有作用!

InfoQ:您能否详细阐述一下传统推荐系统和大模型推荐系统在算法设计和实现上的根本区别?


王皓: 传统推荐系统通常利用用户和物品的 ID 交互信息捕捉用户的偏好,还不能考虑到文本信息,大模型推荐系统是在大语言模型蓬勃发展的浪潮下产生的研究热点,其核心在于结合预训练大语言模型的优势,充分利用文本信息辅助推荐。同时,Scaling Law 效应在推荐系统领域也已经被验证,大模型配合海量的推荐数据能够得到很强的推荐能力,这通常是传统推荐模型达不到的规模。

InfoQ:在推荐数据生成的过程中,您认为最关键的环节是什么?为什么?


王皓: 最关键的环节是评估或保证推荐数据的质量。首先,在一些应用场景中,原始推荐数据中存在信息冗余,为模型的训练带来了不必要的负担,因此可以通过压缩的手段生成新数据,在这个过程中,要保证信息的损失最小化,也就是保证推荐数据的质量;


其次,作为一个整体,推荐数据的多样性也很重要,对于推荐大模型来说,选择单一域或单一类型的推荐数据容易导致模型泛化性能较差,通常要进行数据选择,保证推荐数据的多样性;


最后,生成的数据最终要用于大模型的训练,然而数据中难免存在噪声,误导模型的训练,因此也需要一些去噪的手段。

InfoQ:数据的质量和完整性对推荐系统的影响有多大?您是如何确保数据的质量和完整性的?


王皓: 数据的质量和完整性对推荐系统至关重要。高质量的数据可以确保模型预测更加准确,减少噪声和偏差,提供更好的用户体验。而完整的数据则确保模型在训练过程中能够充分学习用户的行为模式和偏好,从而做出更加个性化的推荐。


在获得高质量推荐数据方面,存在几类方法。首先,在数据类别上,可以引入不同域的数据,研究跨域推荐方法;或者引入行为、文本等特征进行补充,辅助推荐系统的训练;还可以像上面那样引入数据生成方法;其次,对于收集到的数据,可以通过异常值检测和处理、缺失值填补等数据清洗手段,来提高数据可靠性和完整性;最后,可以通过特征转换和特征构建,增强数据的表达能力,提升模型的学习效果。

InfoQ:推荐大模型在实际应用中遇到了哪些主要的技术挑战?您是如何应对这些挑战的?能否分享一些具体的技术实现细节,比如模型架构、训练过程或者优化策略?


王皓: 推荐大模型仍面临着很多亟待解决的挑战,包括


  • 数据规模大:推荐系统需要处理海量的用户和项目数据,对数据存储、处理和建模提出了极高的要求,也给长序列处理能力也带来了挑战;

  • 模型复杂性高:大模型通常包含数百万甚至数十亿个参数,训练过程需要大量计算资源和时间。而且与通用大模型不同,推荐大模型的主要参数来源于数据,因此大规模数据往往会带来更多的参数;

  • 增量处理难:新用户和新项目缺乏历史数据,导致推荐系统难以做出准确推荐。且对增量的处理也是一大难题。


目前,我们进行了初步研究,探索方法来解决这些挑战和困难:


  • 采用数据并行、流水线并行、张量并行等技术进行加速,并针对华为昇腾芯片进行算子优化,实现了训练和推理速度的提高;

  • 在模型架构层面,研究基于 Mamba 等状态空间模型的推荐大模型架构,解决了 Transformer 架构的自注意力机制计算和存储复杂度随输入序列长度的平方级别增长,导致的模型处理长序列能力不足的问题;

  • 引入多行为、跨域数据,更准确地捕捉用户的兴趣动态,挖掘更加全面和细致的用户画像,同时在一定程度上缓解数据稀疏性。

InfoQ:一般来说,通用大模型适用于多个领域和任务,推荐大模型是否能存在此类能力?通用大模型的发展对推荐大模型的设计有什么启示?


王皓: 推荐大模型确实面临跨领域通用性的问题。通用大模型之所以能够适应多个领域和任务,关键在于它们使用文本作为 Token,而文本是一种高度通用的表示形式。无论是自然语言处理、图像描述还是其他任务,文本都可以作为一种通用的输入。这种通用性使得通用大模型在跨任务迁移时非常灵活。然而,推荐大模型的情况有所不同。推荐大模型通常以 Item(项目、商品、内容等)作为 Token。


这些 Item 往往是领域特定的,因此模型在一个特定领域内能够表现得非常好,但在跨领域迁移时,效果往往不如预期。例如,一个在电商平台上训练的推荐模型,直接用于音乐推荐时可能效果不佳,因为这两个领域的 Item 类型、用户行为和偏好模式都存在显著差异。


尽管如此,通用大模型的发展对推荐大模型的设计仍然提供了很多启示。首先,我们可以借鉴通用大模型的统一表示学习方法。通过对 Item 进行更加通用的表示学习,将不同领域的 Item 映射到同一个向量空间内。这意味着我们可以利用 Item 的属性(如文本描述、类别、用户评价等)进行编码,从而在多个领域之间共享知识,增强模型的跨领域能力。其次,领域自适应机制也是一个重要的启发。通用大模型在新任务或领域中能够快速适应,是因为它们具备领域自适应的能力。


推荐大模型可以引入类似的机制,通过在特定领域内进行微调,逐步适应新的推荐场景。例如,我们可以通过将通用 Item 特征与领域特定特征结合,帮助模型更好地适应新的领域需求。


此外,多模态数据的融合也是一个有效的策略,可以引入与 Item 相关的多模态数据,比如商品图片、用户评论文本等,来补充 Item Token 的表示。此外,混合架构设计也是一个值得探索的方向。可以设计一种结合通用大模型与推荐大模型优势的混合架构,利用通用大模型的能力,而在特定领域内的推荐任务中,发挥 Item Token 的优势。

InfoQ:在推荐系统研究中,多行为推荐大模型相较于其他推荐模型,有哪些独特的研究意义或优势?


王皓: 多行为推荐是基于实时推荐场景需求的研究课题。其他推荐任务往往将用户的交互行为视为单一的活动,如单纯的点击或购买行为。然而,现实中的用户可能会表现出多种不同的交互行为,包括浏览、加入购物车和购买等。这些不同的行为往往反映了用户不同层次的兴趣和意图。显然,不同的交互行为所揭示的用户兴趣和需求并不完全相同,甚至可能大相径庭。


因此,多行为推荐大模型的研究意义在于对这些多种行为序列进行精准的分析,进而捕捉到不同行为之间的关联性或转换关系,从而更准确地理解和预测用户的需求。

InfoQ:随着技术的快速发展,您认为未来推荐系统大模型会有哪些新的发展方向?


王皓: 首先,就如上文所说,推荐大模型虽然能力很强,但是也存在比如推理速度慢,资源消耗大的问题,要在拥有强大的预测能力下提升推理速度,减少资源消耗是一个研究难点;


其次,实际场景通常面临很多域的推荐,如何在跨域的场景实现一个统一有效的大模型也是一个新的发展方向;


最后,在一些推荐场景下,存在更多模态的数据例如商品图片等,如何高效地进行模态信息融合,实现多模态大模型的推荐也是比较有前景的研究方向。


嘉宾介绍


王皓,中国科学技术大学特任副研究员研究方向为数据挖掘与深度学习,主持国家自然科学基金青年基金、CCF- 腾讯犀牛鸟基金和阿里巴巴创新研究计划 (AIR) 等项目,在 KDD、NeurlPS、TKDE、TOIS 等高水平期刊和会议上发表论文 50 余篇,获中国科大“墨子杰出青年特资津贴”资助,担任如 KDD、NeurlPS、WWW 等国际程序委员会委员及 TKDE、TOIS 等高水平期刊审稿人,人工智能智能计算服务专委会委员,相关工作 Google 学术引用 1400 余次。


活动推荐:


InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,详情可联系票务经理 13269078023 咨询。



2024-08-14 17:008725

评论 1 条评论

发布
用户头像
不错
2024-08-30 11:33 · 安徽
回复
没有更多了
发现更多内容

想要做网页游戏怎么办 ?PixiJs 篇(三)

空城机

大前端 游戏 pixi 5月日更

秘笈分享! 24 小时无人自习室为什么这么火?

IoT云工坊

小程序 人工智能 物联网 无人自习室

停止维护的CentOS6,怎么使用yum?

运维研习社

Linux 5月日更

C语言0数组\柔性数组使用介绍

良知犹存

c

关于中台,聊聊我认为相对客观的三点认知

架构精进之路

中台 5月日更

苹果移动设备用什么管理比较好?有什么推荐?

懒得勤快

imazing 手机管理

青海大学智慧微能源数字孪生可视化系统

ThingJS数字孪生引擎

大前端 可视化 3D可视化 数字孪生

优柔寡断的人,能成什么大事

Kareza

个人成长 5月日更 反思总结

Nginx基础配置-资源缓存配置

梁龙先森

nginx 大前端 缓存;

STM32F103C8/BT6最小系统原理图、PCB

不脱发的程序猿

嵌入式 单片机 STM32F103C8T6 MCU ST

414天前,我以为这是编程玄学...

why技术

Java JVM JMM

JavaScript设计模式之单例模式

程序员海军

JavaScript 大前端 设计模式 单例模式

百度大脑开放日厦门站-企业服务专场报名

百度大脑

百度大脑 开放日 企业服务

Python OOP-4

若尘

面向对象 oop Python编程 5月日更

缓存系统稳定性 - 架构师峰会演讲实录

万俊峰Kevin

缓存 微服务 分布式缓存 Go 语言

STM32如何计算RTC时钟异步预分频和同步预分频

不脱发的程序猿

嵌入式 RTC stm32 单片机 ST

10个 解放双手的 IDEA 插件,这些代码都不用写(第二弹)

程序员小富

Java 后端 IDEA

图算法系列之计算图中最短路径

Silently9527

数据结构和算法 图算法 广度优先搜素

怎样使用过程自动化来实现过程的习惯性和持久性?

IPD产品研发管理

自动化 开发 CMMI

干好开发者关系的十个职业发展秘诀

开发者关系

开发者关系 技术运营 DevRel

【LeetCode】叶子相似的树Java题解

Albert

算法 LeetCode 5月日更

GitHub开源的文言文编程语言、程序生成中国山水画、格律诗编辑程序

不脱发的程序猿

GitHub 开源 编程语言 传统文化

Java程序员面试必备——过得了面试官,过不了HR?我教你

比伯

Java 编程 架构 程序人生 计算机

IM扫码登录技术专题(三):通俗易懂,IM扫码登录功能详细原理一篇就够

JackJiang

即时通讯 IM 扫码

密码学系列之:NIST和SHA算法

程序那些事

数据结构 密码学 程序那些事

读完你就知道对话式人工智能的数据采集如何解决啦!

澳鹏Appen

人工智能 自然语言处理 聊天机器人 nlp nlu

【技术干货】文件系统中的“锁”

焱融科技

容器 分布式 云原生 高性能 文件存储

毕业前写了20万行代码,让我从成为同学眼里的面霸!

小傅哥

Java 面试 小傅哥 求职 毕业生

打破思维定式(五)

Changing Lin

5月日更

一线大厂最新总结Spring Security Oauth2.0认证授权全彩笔记

Java架构追梦

Java 阿里巴巴 架构 面试 spring security

一文带你全面了解java对象的序列化和反序列化

华为云开发者联盟

Java 序列化 java对象 反序列化 Serializable接口

中科大王皓:当前推荐大模型急需解决的几大难题_AI&大模型_InfoQ精选文章