写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307534
用户头像

发布了 89 篇内容, 共 48.1 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

HyperWorks基础培训教程:批处理网格划分

智造软件

Hypermesh hyperworks CAE仿真

StarRocks+Paimon落地阿里日志采集:万亿级实时数据秒级查询

阿里云大数据AI技术

人工智能 数据分析 StarRocks paimon #大数据

CAD中图纸上测量的尺寸与实际不符是怎么回事?

在路上

cad cad看图 cad软件

CAD看图王三维功能升级能解决哪些问题?

在路上

cad

区块链Web3系统的开发

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

从零实现模块级代码影响面分析方案|得物技术

得物技术

模块 代码影响范围

懒懒笔记 | 课代表带你梳理【RAG 课程 6&7:评测、召回优化与多路检索】

商汤万象开发者

AI LLM rag

「哔哩哔哩」正式加入 Karmada 用户组!携手社区共建多集群生态

华为云原生团队

云计算 容器 云原生

Transforms预处理

测试人

人工智能

西藏具有资质等保测评机构汇总2025

行云管家

网络安全 等保 等保测评

区块链 Web3 项目的技术架构

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

通过利益相关者管理提升财务规划的发展可持续性

智达方通

企业管理 财务管理 财务规划

新时代的可观测性:拥抱 GuanceDB 3.0

观测云

数据库

从“无效提问”到精准指令:测试工程师的AI高效沟通指南

测试人

人工智能

用 CodeBuddy 打造一张属于她的 520 刮刮乐,程序员的浪漫可以这么强大!

不惑

CodeBuddy首席试玩官

仓颉开发语言入门教程:搭建开发环境

幽蓝计划

什么是网站IPv6支持度?怎么检测?

国科云

确保高质量的音视频通话,如何最大化利用视频带宽

腾讯云音视频

实时音视频

对话阿里云通义灵码技术负责人陈鑫:AI编程的现状与未来

阿里巴巴云原生

通义灵码

小红书APP的全新鸿蒙NEXT端性能优化技术实践

JackJiang

网络编程 即时通讯 IM

AI赋能零售智能配置:精准匹配产品、场景与时机

第七在线

用 CodeBuddy Craft 感受真正的 Vibe Coding

不惑

CodeBuddy首席试玩官

CST如何查看阵列天线的副相一致性

思茂信息

cst CST软件 CST Studio Suite

AI技术在英语学习中的应用

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语学习

工业全坚固三防笔记本电脑——FZ-40

极客天地

设备维修,掌握“一巡、二看、三动手”,轻松解决设备故障

积木链小链

数字化 设备管理 生产管理 设备维修

对话阿里云通义灵码技术负责人陈鑫:AI编程的现状与未来

阿里云云效

Web3 App开发的技术方案

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

2025 DataOps发展大会:数造科技再获殊荣,引领数据要素高质量供给

数造万象

人工智能 AI 数据 高质量 Data + AI

卡片导航组件|纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙 鸿蒙开发 鸿蒙操作系统 纯血鸿蒙 鸿蒙组件库AUI

【HarmonyOS 开发】虚拟机无法访问本地服务 Couldn‘t connect to server

Geek_4a16a4

鸿蒙 开发工具 HarmonyOS HarmonyOS NEXT 实践分享

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章