写点什么

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

  • 2024-04-30
    北京
  • 本文字数:1729 字

    阅读完需:约 6 分钟

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

大型模型的出现为新的经济增长注入了新的动力,但在训练和推理方面,它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。


为了向业界提供更多思考和借鉴的机会,我们在 AICon 全球人工智能开发与应用大会上,特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人,旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享,他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架


我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader,他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中,李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求,而且兼容了大模型主流生态,提供了灵活易用的接口。


在演讲中,李深将深入探讨大模型服务部署优化面临的主要挑战,以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等,将为听众呈现出多层次联合的极致性能优化方案。通过他的分享,听众将了解大模型服务部署中的主要瓶颈与技术挑战,探索大模型部署优化的主要技术手段,并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈,如何进行工程优化?


本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家,目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中,他将探讨当大模型推理遇到算力瓶颈时,如何进行工程优化。随着大语言模型的持续发展,其参数量和序列长度呈指数级增长,因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构,详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享,听众将了解到大模型推理算力瓶颈及主要工程优化手段,以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future


我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人,他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中,他将分享关于 TensorRT-LLM 的主题:“TensorRT-LLM: 过去、现在与未来”。


TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中,团队不断进行设计思考,探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点,将会深入探讨该方案背后的理念和技术实现。此外,杨军还将简要介绍 TensorRT-LLM 的未来规划,展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享,听众将获得对 TensorRT-LLM 项目的深入了解,探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地


我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人,他在大模型压缩优化及推理加速领域拥有丰富经验,曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中,刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。


随着生成式 AI 技术的迅速发展,模型规模不断增大,结构也从 Dense 向 MoE 进化。在这一背景下,大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架,以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化,助力腾讯混元大模型在公司内全面铺开应用。


刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法,重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享,听众将了解生成式 AI 的技术难点和优化手段,大模型推理加速的技术细节,以及大模型压缩的技术方法和后续发展。



2024-04-30 19:0012750

评论

发布
暂无评论
发现更多内容

仓储管理系统(源码+文档+讲解+演示)

深圳亥时科技

如何选择适合自己的LED显示屏:参数与选购指南

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

Shopify API对接的部署

北京木奇移动技术有限公司

跨境电商 软件外包公司 shopify开发

ClkLog埋点系统客户案例-电子签佼佼者「大家签」为何选择ClkLog?

ClkLog

开源 埋点 用户行为分析 自定义标签

《北京日报》点赞!融云助力打造“数字丝路”新范式

融云 RongCloud

智能制造:企业组织发展与IT信息技术发展的关系

积木链小链

数字化转型 信息技术 智能制造

烧掉 700 亿学费后,中国企业终于懂了:换软件才是真正的省钱

IPD产品研发管理

软件 信创 国产化替代 国产化软件

得物技术部算法项目管理实践分享

得物技术

#项目管理

AI数字人的开发流程

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

两连发!文心大模型4.5及X1,上线千帆!

百度Geek说

百度 #大模型

如何在Java程序中使用泛型

码语者

Java泛型

大模型推理框架RTP-LLM Embedding技术揭秘

阿里技术

司库管理研修班:权威师资齐聚,共探数智转型之道

用友智能财务

AI 财经 会计

发挥技能优势,实现财务数字转型

智达方通

数字化转型 全面预算管理

Hologres Dynamic Table快速入门

阿里云大数据AI技术

云计算 大数据 hologres 动态表

群晖科技与东芝签署谅解备忘录,加强战略合作伙伴关系

新消费日报

当AI渗透每个角落,效能管理如何变化?

思码逸研发效能

AI 研发管理 研发效能 研发效能管理 AI Agents

AI数字人的分类及特点

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

10分钟部署!一文读懂NineData社区版强在哪里?

NineData

数据库、 NineData 对比工具 测评对比 NineData社区版

Java 24(JDK 24)新特性详细介绍

AiDaddy

#java #java24 #jdk24 #jdk jdk24新特性

AI数字人开发的技术难点

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

泄密与间谍:网络安全与国家安全的紧密联系

黑龙江陆陆信息测评部

网络安全 等保测评 网络安全信息安全、

档案管理系统(源码+文档+讲解+演示)

深圳亥时科技

通过 INFINI Console 集中管理极限网关配置

极限实验室

console Gateway

一文读懂!微店商品列表数据接口全指南

tbapi

微店API 微店商品数据采集 微店商品列表接口 关键词搜索微店商品接口

项目管理协作工具对比:PingCode vs Leangoo

axe

项目管理工具 PingCode 办公软件 项目协作工具 leangoo

AI数字人的开发框架

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI数字人

智慧人大系统(源码+文档+讲解+演示)

深圳亥时科技

NocoBase 本周更新汇总:优化表格区块的列和操作

NocoBase

开源 低代码 零代码 开发工具 版本更新

《Operating System Concepts》阅读笔记:p408-p448

codists

操作系统

CST软件如何理解Axial Ratio轴比

思茂信息

cst cst操作 cst电磁仿真 CST软件 CST Studio Suite

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon_AI&大模型_李忠良_InfoQ精选文章