写点什么

Meta 详细阐述基于 LLM 级训练、混合并行计算与知识迁移的 GEM 广告模型

作者:Vinod Goje

  • 2025-12-24
    北京
  • 本文字数:1314 字

    阅读完需:约 4 分钟

大小:659.65K时长:03:45
Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型

Meta发布了有关其生成式广告模型(GEM)的详细信息,这是一个旨在改善其平台广告推荐能力的基础模型。该模型处理每天数十亿的用户-广告交互数据,解决了推荐系统(RecSys)中的核心挑战——有意义的信号(如点击和转化)非常稀疏。GEM 致力于解决从多样化广告数据中学习的复杂性,包括广告商目标、创意格式、测量信号以及跨多个投放渠道的用户行为。

 

该公司使用三种方法构建了这个系统:基于先进架构的模型缩放技术、用于知识迁移的后训练技术,以及增强型训练基础设施——该基础设施利用数千块 GPU 实现高级并行计算,以满足大规模基础模型训练的计算需求。



图片来源:GEM架构

 

Meta 对训练架构进行了重新设计,使其能够以媲美现代大型语言模型的规模支持 GEM。该公司针对不同模型组件采用了定制化的多维并行策略:密集型模型组件采用混合分片分布式并行(HSDP)技术,在数千块 GPU 间优化内存使用并降低通信开销;稀疏型组件(主要为用户和物品特征的大型嵌入表)则采用结合数据并行与模型并行的二维并行方案

 

为了减少训练瓶颈,Meta 实施了几项 GPU 级别的优化,包括:针对可变长度用户序列设计的定制 GPU 内核;PyTorch 2.0 中的图级编译技术,可自动执行激活检查点和操作符融合;采用 FP8 量化等内存压缩技术处理激活值。

 

Meta 团队通过 NCCLX(Meta 的 NVIDIA NCCL 分支)开发了 GPU 通信集合,可以在不使用流式多处理器资源的情况下运行。这消除了通信工作负载和计算工作负载之间的竞争。Meta 通过优化训练器初始化、数据读取器设置和检查点,将作业启动时间减少了 5 倍。通过优化缓存策略,PyTorch 2.0 的编译时间减少了 7 倍,提高了处理新数据所花费的训练时间占比。

 

该系统在模型生命周期中持续优化 GPU 效率。在探索阶段,与完整模型相比,轻量化模型变体以更低的成本支持了超过半数的实验。Meta 通过持续在线训练刷新基础模型,并在训练过程与训练后的知识生成阶段之间共享流量,从而降低计算需求。

 

按照 Meta 的设计,GEM 将知识迁移到数百个面向用户的垂直模型,在其平台上提供广告服务。该公司采用两种迁移策略,将基础设施模型的能力转化为可衡量的收益。

 

直接迁移使 GEM 能够向其接受训练的数据空间内的主要垂直模型传递知识。分层迁移则将 GEM 的知识提炼为特定领域的基础模型,进而用于训练垂直模型。

 

这些方法通过知识蒸馏、表示学习和参数共享最大限度地提升了 Meta 广告模型生态系统中的迁移效率。

 

特斯拉前总监Swapnil Amin评论说:

 

GEM 感觉就像我们都知道要到来的转变——一种真正能同时学习创造力、语境和用户意图的模型,而非事后拼凑碎片。

 

他强调:

 

23 倍的有效浮点运算性能提升是改变经济效益的关键所在。

 

微软高级产品经理Sri.P认为该技术对广告商具有潜在的应用价值,并表示

 

这对营销人员/广告商来说是一个游戏规则的改变者!可以看到,它有可能为小型企业节省大量的资金,因为他们不需要试验营销策略,而是可以依靠智能模型来充分利用他们的广告支出。

 

按照 Meta 的设想,广告推荐系统的基础模型将发展出一种可以更好地理解用户偏好和意图的能力,使用户与广告的互动更加个性化。对于广告商来说,Meta 将这种模型定位为实现大规模一对一连接的方法。

 

原文链接:

https://www.infoq.com/news/2025/12/meta-gem-ads-model/

2025-12-24 16:001

评论

发布
暂无评论
发现更多内容

GIS :元宇宙未来发展的有力技术支撑

华为云开发者联盟

AI GIS 虚拟世界 数字孪生 云宇宙

组件通信、硬件池化,这些创新技术你get了吗?|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

创业老兵李峻的新征程|ONES 人物

万事ONES

前端开发之JQuery的综合应用

@零度

jquery 前端开发

知识库进化论 | 华创资本对话 ONES & 为知笔记创始人

万事ONES

Scrum Master需要具备哪些能力和经验

华为云开发者联盟

Scrum 敏捷 团队 教练 Scrum Master

TDSQL PG版企业级分布式数据库技术创新实践

腾讯云数据库

tdsql 国产数据库

java开发之Redis的使用规范

@零度

redis JAVA开发

Serverless 背景下,一部分“前端工程师”会转变为“应用交付工程师”

杨成功

Serverless 架构 前端

线上流量对比应用实践

得物技术

架构 数据 流量 实践 流量回放

为什么HashMap会产生死循环?

王磊

Hive SQL底层执行原理

五分钟学大数据

Hive SQL 1月月更

虎符研究院深入解读Web3.0未来趋势 盘点代表性项目

区块链前沿News

Web Hoo虎符 虎符研究院 虎符平台 3.0

Android技术分享| 自定义View实现使用更方便的SeekBar

anyRTC开发者

android 音视频 移动开发 白板 SeekBar

使用php-amqplib实现RabbitMq

Owen Zhang

php RabbitMQ php-amqplib

前端使用 zx 库在 Node 中编写 Shell 脚本

devpoint

node.js Shell 1月月更 zx.js

2021 OceanBase 开源半年度报告 | 不忘初心,感恩同行

OceanBase 数据库

开发者 报告 OceanBase 开源 OceanBase 社区版

我相信:没有解不开的难题|ONES 人物

万事ONES

ONES CTO 冯斌|如何低成本地做出高质量决策

万事ONES

ReactNative进阶(二十三):Javascript 严格模式详解

No Silver Bullet

React Native 1月月更

低代码实现探索(二十二)如何构建一个可以看的懂的系统

零道云-混合式低代码平台

1月月更|推荐学java——Spring之AOP

逆锋起笔

spring SSM框架 spring aop 依赖注入 面向切面编程

TDSQL | 将企业级分布式数据库做到极致

腾讯云数据库

tdsql 国产数据库

软件设计——依赖倒置

苏州程序大白

架构师

龙蜥社区一周动态 | 1.10-1.14

OpenAnolis小助手

Linux 开源 社群

我以订披萨为例,给女朋友详细讲了Java设计模式的3种工厂模式

华为云开发者联盟

Java 工厂模式 工厂方法模式 简单工厂模式 抽象工厂模式

架构实战训练营-模块7-作业

温安适

「架构实战营」

TDSQL-C for PostgreSQL 主从架构详解

腾讯云数据库

tdsql 国产数据库

Chrome插件:摸鱼倒计时、每日摸鱼时间统计,奋斗逼、卷王必备,用于减少摸鱼时间和频率

OBKoro1

效率 开源 效率工具 chrome扩展 高效率

Jetpack—LiveData组件的缺陷以及应对策略

vivo互联网技术

android livedata JetPack 移动应用开发

CSS 自适应内容宽度的输入框

编程江湖

Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型_Meta_InfoQ精选文章