AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307279
用户头像

发布了 89 篇内容, 共 46.8 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

RWA 成下一轮加密大叙事,PoseiSwap 的价值正在凸显

BlockChain先知

2023-06-23:redis中什么是缓存击穿?该如何解决?

福大大架构师每日一题

福大大架构师每日一题

老大给了个新需求:如何将汉字转换成拼音字母?1行Python代码搞定!

程序员晚枫

Python 拼音 汉字

skywalking沉了一年的线程池插件bug被我解决了

夏奇

Java Agent Skywalking ClassLoader 字节码增强 开源贡献

RWA 成下一轮加密大叙事,PoseiSwap 的价值正在凸显

鳄鱼视界

语音合成数据的重要性:打造自然流畅的语音合成体验

数据堂

情感语音识别技术及其应用

数据堂

情感语音识别技术的挑战和未来发展

数据堂

基于CC2530设计智慧农业控制系统

DS小龙哥

6 月 优质更文活动

RWA 成下一轮加密大叙事,PoseiSwap 的价值正在凸显

股市老人

头一次见单例模式讲的如此透彻

越长大越悲伤

设计模式 单例模式

cdc任务同步错误但不会触发告警问题记录

TiDB 社区干货传送门

故障排查/诊断

强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战

汀丶人工智能

人工智能 深度学习 强化学习 Qlearning 6 月 优质更文活动

【领域驱动设计专题】一文带领你透视DDD领域驱动模型的本质和设计原理分析指南(基本概念篇)

码界西柚

领域驱动设计 DDD 领域驱动模型DDD 中台架构 领域驱动模型

RWA 成下一轮加密大叙事,PoseiSwap 的价值正在凸显

西柚子

情感语音识别数据的重要性及其在人机交互领域的应用

数据堂

在高度为h的堆中,元素个数最多和最少分别是多少?

福大大架构师每日一题

ChatGPT

TiDB v7.1.0离线升级命令版

TiDB 社区干货传送门

实践案例 版本升级 7.x 实践

强化学习从基础到进阶-常见问题和面试必知必答[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战

汀丶人工智能

人工智能 深度学习 强化学习 Qlearning 6 月 优质更文活动

TiDB 7.1资源管控和Oceanbase 4.0多租户使用对比

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

时间戳与时区

ScratchLab

无处不在 | 亚马逊云科技的 Java 生态

亚马逊云科技 (Amazon Web Services)

Java 开源 jdk

驾驶新时代:车载语音识别的革命性进展与应用

数据堂

2023-06-22:一所学校里有一些班级,每个班级里有一些学生,现在每个班都会进行一场期末考试 给你一个二维数组 classes ,其中 classes[i] = [passi, totali] 表

福大大架构师每日一题

算法 福大大架构师每日一题

TTS语音合成技术的挑战和未来发展

数据堂

跨AZ部署最佳实践之Kafka

焦振清

问答对话文本数据,构建智能问答对话系统的基础

数据堂

TTS语音合成技术及其应用

数据堂

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章