硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307705
用户头像

发布了 89 篇内容, 共 48.7 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

AI大模型如何生成PPT?7个主流PPT生成器大盘点

职场工具箱

PPT AI大模型 AIGC AI工具 AI生成PPT

EdgeOne Pages成为中小企业与开发者出海首选平台

极客天地

AI Compass前沿速览:GPT-5-Codex 、宇树科技世界模型、InfiniteTalk美团数字人、ROMA多智能体框架、混元3D 3.0

汀丶人工智能

如何在 OpenShift 上部署和使用 KubeBlocks

小猿姐

k8s 容器化 Redshift

工具过多:如何管理前端工具泛滥?

掘金安东尼

RFID技术应用中常见的误区与防坑指南

斯科信息

RFID技术 RFID读写器 RFID标签

行业分享丨汽车电磁兼容仿真技术与应用

Altair RapidMiner

人工智能 AI 汽车 仿真 CAE

大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流

武子康

Java 大数据 flink spark 分布式

2025网安周|以高水平安全守护高质量发展 绿盟科技亮相昆明多场重磅活动

科技热闻

“融海计划”一周年,金融AI产业交出一张生态答卷

脑极体

AI

第五届电气工程与机电一体化技术国际学术会议(ICEEMT 2025)

搞科研的小刘

国际学术会议 电器工程 机电一体化

KWDB 携手“开放原子校源行”走进河北工业大学

KaiwuDB

数据库

CST软件如何获取二极管的IV曲线

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

上线半年客户数增长超300%,腾讯云音视频低代码互动直播组件释放全球开发者生产力

极客天地

鸿蒙应用开发从入门到实战(七):ArkTS组件声明语法

程序员潘Sir

鸿蒙 HarmonyOS

从慕尼黑街头的伪装车,看汽车背后的“千锤百炼”

DevOps和数字孪生

黑龙江等保测评全流程解析:合规之路的关键步骤

等保测评

【新模型速递】PAI-Model Gallery云上一键部署Qwen3-Next系列模型

阿里云大数据AI技术

阿里云 大模型 通义千问 PAI

挖掘PDF生成器中的SSRF漏洞:从发现到利用

qife122

网络安全 SSRF

自控学习历程系列 自控维护经验总结(23)

万里无云万里天

工厂运维

AI Agents 能自己开发工具自己使用吗?一项智能体自迭代能力研究

Baihai IDP

AI LLM AI Agent

【IEEE出版|上海理工大学主办】第六届大数据、人工智能与物联网工程国际会议(ICBAIE 2025)

搞科研的小刘

人工智能 大数据 国际学术会议 上海理工

即时通讯软件,能聊天还能协同办公的企业IM

BeeWorks

即时通讯 IM 私有化部署

鸿蒙5.0应用开发——V2装饰器@ObservedV2和@Trace的使用

高心星

鸿蒙 装饰器 HarmonyOS5.0 V2装饰器 @ObservedV2

docker启动mysql多实例连接报错Can’t connect to local MySQL server through socket ‘/var/run/mysqld/mysqld.sock’

刘大猫

人工智能 数据挖掘 机器学习 算法 数据分析

纯电拐点,一场尚未到来的革命

脑洞汽车

AI

速卖通商品列表API秘籍!轻松获取商品列表数据

tbapi

速卖通商品数据采集 速卖通API 速卖通商品详情API 速卖通商品数据分析

企业内网IM:构建高效安全的企业内网即时通讯系统

BeeWorks

即时通讯 IM 私有化部署

自控学习历程系列 自控维护经验总结(22)

万里无云万里天

工厂运维

亚马逊商品详情API秘籍!轻松获取商品详情数据

tbapi

亚马逊API 亚马逊商品详情API 亚马逊商品数据采集 亚马逊数据分析

Chainlink Data Streams正式上线Sei网络,成为首选预言机基础设施

股市老人

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章