写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307827
用户头像

发布了 89 篇内容, 共 49.6 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL运维16-双主双从读写分离

不在线第一只蜗牛

MySQL 数据库 运维

关于数据可视化分析、过程及工具

2D3D前端可视化开发

数据可视化 数据可视化工具 数据可视化设计 数据可视化过程 数据可视化步骤

活动回顾 | 云边异构新型数据库在智慧城市的应用实践

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

软件测试/测试开发丨黑盒测试方法等价类 学习笔记

测试人

软件测试

架构师蓝图: 理解软件风格与模式

俞凡

架构

推荐6个场景开源项目,建议收藏

伤感汤姆布利柏

2024年度计划新视角:5种情况下你或你的公司可能不需要SEO

九凌网络

考研二战失败,自学前端2个月,找到了9K的工作

程序员改bug

编程 性能优化 前端 大前端 前端程序员

再获权威奖项!百度安全DDoS防护服务斩获云安全联盟CSA 2023安全金盾奖

百度安全

酒店集团推行“共享用工”实现降本增效,单店年省高达30万?!

用友BIP

旅游数智化

拼多多商品详情接口、拼多多商品基本信息、拼多多商品属性接口

tbapi

拼多多API接口 拼多多商品详情数据接口 拼多多商品价格接口

帮我超越技术壁垒的“泰斗”服务--Amazon ElastiCache

亚马逊云科技 (Amazon Web Services)

redis re:Invent Amazon ElastiCache

开发者都能玩转的大模型训练

亚马逊云科技 (Amazon Web Services)

机器学习 canvas re:Invent AIGC Amazon SageMaker

雨雪天气袭来!用华为天气提前掌握未来雨雪势

新消费日报

AI和机器学习:探索智能科技的未来

不会算法。

分享两种Pulsar消息积压topic级别策略老化办法

华为云开发者联盟

开发 华为云 华为云开发者联盟

第一个程序:HelloWorld——IDEA 使用

小魏写代码

瑞技伙伴 | 举足轻重的IT设备?ServerLIFT 举重若轻!

Bytebridge

数据中心 运维管理 智能升降机

使用 Amazon Bedrock 完成你的问答需求

亚马逊云科技 (Amazon Web Services)

人工智能 亚马逊云科技 大语言模型

面对勒索病毒,金融机构该怎么办

XSKY星辰天合

小语种才是独立站新风口,英文建站不再是唯一选择!

九凌网络

什么是高防IP,该如何选择一个好的高防IP

德迅云安全_初启

史上最全前端知识点+高频面试题合集,十二大专题,命中率高达95%

程序员改bug

程序员 架构 前端 大前端 web前端

"前端面试笔记"在互联网上火了,完整版开放下载

程序员改bug

架构 性能优化 前端 大前端 工程化

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章