写点什么

云原生时代,推荐引擎架构有哪些挑战

  • 2021-09-11
  • 本文字数:1458 字

    阅读完需:约 5 分钟

云原生时代,推荐引擎架构有哪些挑战

在策划 AICon 人工智能与机器学习大会(2021.11.6-7 北京)的时候,首先想到的是推荐广告技术,不管是在工程技术还是在架构方面,也更符合 AI 技术的应用预期。在策划专题之初,我们去拜访了阿里巴巴智能引擎事业部算法平台负责人,阿里妈妈工程技术负责人 张迪(乐迪)老师,一起探讨了关于推荐和搜索的话题。

推荐引擎的核心技术和挑战


这几年整个推荐引擎的演变非常快,推荐引擎里面其实有三个核心的技术,一是召回技术,二是排序技术,三是机制技术,尤其是广告领域,它的机制属性是非常强的。


这三个技术对应到算法和架构上,就涉及到了召回技术,召回技术这几年变化非常多,最早的召回技术无论是搜索还是推荐,它本质上都是基于关键词的召回。搜索则是通过 search 关键词,Query 改写来进行召回。


之后兴起了各种各样的向量召回,更加丰富的把模型信息引入进来,向量化召回的本质是用模型在做匹配,但这个模型计算有很复杂的在线规则,因为在线无法完成大量的模型匹配,所以在线部分只留了一个比较经典的双塔结构,把下面所有的模型计算部分放到离线处理。但这也存在弊端,就是在线计算过于简单,很多个性化的东西会丢失,这也催生出新兴的技术,把越来越多的计算处理在线化,后来又出现像全库检索这样的技术,所以整个在线召回架构变化非常大。


在线 Ranking,这是在线里面最核心的一部分,随着模型的发展,计算量越来越大,如何支撑这种越来越大规模的在线 Ranking 计算,也是一个非常大的挑战。


而前面提到的机制,也正在往模型化的方向发展。以强化学习为例,推荐结构中推荐引擎的发展,和算法是一致的,算法越来越复杂的同时,给在线架构和计算量带来了非常多的挑战,对应衍生出了非常多的技术。

推荐引擎 & 云原生


关于推荐引擎,在整个容量管理和自动化偏向云原生,云原生其实是一个大的概念,但整体上它代表着更好的、越来越 Serverless 化,越来越多的业务的开发,和底层的分布式架构解藕带来了研发效率的提升,随着容量自动扩容,这个技术的影响力也越来越广泛。


另外,AI 算力的演化,召回的算力越来越强,Ranking 的算力越来越强,带来了整个架构上的挑战。举个例子,前几年兴起的超大规模模型的 server 问题,TB 级模型 server 问题,规模大意味着网络宽,而往深了探索,就要在单个芯片上把挖掘和编译优化做的越来越好,在离线都面临这样的问题。


分布式模型训练这个方向,仍然是非常重要的问题,如何把模型训练的更高效?除了把 SQL 做的越来越好之外,还有一个方向就是这几年百度、阿里、英伟达也在做的事情,就是用类似于 GPU pod 或者 AI 芯片 pod 来训练推荐模型,还是非常创新的,这是整个 Training 方向。在 Training 之上,其实有很多有意思的训练方式,就是训练的创新模型,比较经典的是前几年的 Graph Learning,还有联邦学习、双曲空间、Online Learning 都有很广的应用。


关于搜索引擎,整体上的趋势是越来越推荐化,搜索最大的特点是有个关键词,它基于关键词约束去做 Query,这是它最大的不同,但是现在越来越多的是把推荐的技术放进去,逐渐用算法的形式,然后不在关键词的约束下,在一个基本的相关性约束下去做推荐。

活动推荐:


除了上面聊到的一些技术演变之外,我们还讨论了在 AICon 会议上该如何将异构计算、推荐算法、沉浸事推荐多阶段排序技术结合业务场景来展示给听众,目前这些话题已经上线至官网了,感兴趣的可以移步至官网了解。


此外,AICon 还将围绕人工智能、通用机器学习、计算机视觉、智能金融技术、AI 团队建设、自动驾驶技术、NLP 技术、大规模机器学习等多个话题展开讨论,精彩内容持续上线中。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-09-11 13:001337

评论

发布
暂无评论
发现更多内容

升级的华为云“GaussDB”还能战否?

华为云开发者联盟

MySQL 数据库 开源 Elastic Stack GaussDB

Docker商业版受限,胖容器是个选择

BoCloud博云

Docker 容器 博云

Lambda架构已死,去ETL化的IOTA才是未来

易观大数据

年薪80万技术专家,面试通过后,被发现简历造假!合并8年前多段工作,惨遭警告和淘汰!

程序员生活志

程序员 面试 职场

Grabana:使用 Golang 或 Yaml 生成 Grafana Dashboard

郭旭东

Grafana Go 语言

原创 | 使用JPA实现DDD持久化-O/R阻抗失配(1/2)

编程道与术

Java hibernate DDD JDBC jpa

上手Elasticsearch

北漂码农有话说

账户经常被盗号怎么办?防盗“黑科技”了解一下

华为云开发者联盟

华为云 云安全 主机安全 双因子认证 弱密码

满足消费者仪式感要求,木莲庄酒店做得很到位

InfoQ_967a83c6d0d7

在木莲庄酒店和孩子一起体验“团队作战”的乐趣!

InfoQ_967a83c6d0d7

架构师训练营第十一周作业

Hanson

架构训练营第十一周作业

张锐

安全及高可用策略

Lane

极客大学架构师训练营

解码微盟半年财报:同比增长59.9%,SaaS商业版图不断扩大

ToB行业头条

SaaS 微盟

云原生技术采用增加,全球60%后端开发人员都在使用容器

BoCloud博云

Kubernetes 容器 云原生 CaaS 博云

架构师训练营第十一周总结

Hanson

一个用户秘密加密验证功能

elfkingw

IDEA插件之Mybatis Log plugin破解!!!

不才陈某

Java idea插件

易实战Spring Boot 2 资源汇总 从入门到精通 内含实战github代码 毫无保留分享

John(易筋)

redis Spring Boot 2 RestTemplate thymeleaf HikariCP

力扣1514——概率最大的路径

健健

算法 最短路径

架构训练营第十一周感悟

张锐

ARTS挑战打卡的100天,我学到了这些

老胡爱分享

ARTS 打卡计划

让这家有12万名员工、1.7万种产品的钢铁厂平滑上云的黑科技是什么?

华为云开发者联盟

大数据 云服务 华为云 非对称加密 KYON

架构师训练营 第11周

大丁💸💵💴💶🚀🐟

《精益创业》续

孙苏勇

随笔杂谈 精益创业

Week11

丿淡忘

熔断、限流的一些理解

elfkingw

程序员不得不知的软技能

架构精进之路

软技能

用户注册密码保存与校验(golang版)

2流程序员

“DNAT+云链接+CDN”加速方案,助力出海企业落地生长

华为云开发者联盟

CDN 网络 华为云 企业出海 网络加速

代理,一文入魂

cxuan

Java 后端 代理

云原生时代,推荐引擎架构有哪些挑战_架构_Lucien_InfoQ精选文章