50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

  • 2023-12-12
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

大小:660.17K时长:03:45
英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

QCon 全球软件开发大会,将于 12 月在上海召开。英特尔数据中心与人工智能事业部 AI 软件架构师何普江将发表题为《大模型时代:最大化 CPU 价值的优化策略》主题分享,探讨一种结合 CPU 和 GPU 的投机采样方法,在大语言模型时代充分利用 CPU 资源的关键策略,以及最新的性能情况,以便了解这些优化策略的实际效果。


何普江,2007 年硕士毕业于中国科学技术大学。精通英特尔软件架构、英特尔产品与技术以及 IA 平台性能优化。在英特尔工作期间,为国内主流 ISV 开发出基于 IA 平台的云计算产品过程中提供关键支持,并优化了多家主要互联网公司的核心产品,使其性能提升数倍。对 PyTorch,Tensorflow 等 AI 框架有深入研究,并拥有 10 年以上软件优化经验。工作期间曾获得英特尔中国个人员工最高荣誉奖,与国内互联网厂商多个部门进行深度合作,并在 2019 年助力某云厂商云在 MLPerf 评测中创下了业界领先的 Performance/TOPS 性能记录。他致力于基于 IA 架构平台的深度学习、机器学习研究和在互联网行业的落地推广工作,最新工作包括创建并开源了 CPU 上大语言模型的极致优化方案 xFasterTransformer。他在本次会议的演讲内容如下:


演讲:大模型时代:最大化 CPU 价值的优化策略


本次演讲将探讨在大语言模型时代充分利用 CPU 资源的关键策略。具体介绍一些结合硬件特性的优化方法,例如利用 CPU 的多核特性、采用并行计算和 AMX 指令集扩展技术来提高处理速度。


此外还将介绍一种结合 CPU 和 GPU 的投机采样方法,通过在 CPU 上运行部分计算任务,充分利用 CPU 资源并减少对 GPU 的依赖。最后,我将分享一些最新的性能情况,让您了解这些优化策略的实际效果。通过这些方法,您将能够更好地利用 CPU 资源,提高模型推理速度,以更快速高效的实现生成式模型部署落地。


演讲提纲:


  1. 大语言模型时代为什么需要最大化 CPU 价值

  2. CPU 上的大模型优化策略

○ 大语言模型计算特点

○ CPU 硬件特性概览

○ 优化方法

○ 从向量化到张量化

○ 从并行执行到分布式推理

○ 低精度优化

○ 深入 CPU 微架构的软件优化

○ 各优化策略的实际性能数据对比及效果展示

  1. 结合 CPU 和 GPU 的投机采样方法

○ CPU 和 GPU 协同工作的背景

○ 投机采样技术的介绍

○ 利用 CPU 进行部分计算任务的优势

○ 优化方法:选择合适的投机采样策略、任务调度等

  1. 总结与展望

○ 各优化方法的核心优势与局限性总结

○ 对未来大语言模型时代的展望与挑战


听众收益点:


○ 理解并结合硬件特性进行优化,提高模型推理速度和处理能力

○ 了解 CPU 上的最新性能情况,为实际业务的大模型线上部署提供更多选择

○ 掌握结合 CPU 和 GPU 协同工作的优化策略,减少对 GPU 的依赖,提高资源利用率


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月!9 折优惠仅剩最后 4 天,现在购票立减¥680!咨询购票请联系:18514549229(微信同手机号)。



2023-12-12 11:304213
用户头像

发布了 89 篇内容, 共 48.6 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

【Flutter 专题】117 图解 Dismissible 滑动清除 Widget

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

Java 面试基础:Java 语言的特点

三掌柜

5月日更

带你看懂MySQL执行计划

Simon

MySQL 执行计划

🔎【Java 源码探索】深入浅出的分析Mutex底层源码

码界西柚

Java JVM mutex Condition 5月日更

QCon 演讲实录 | 大型软件团队的数字化项目管理实践

万事ONES

研发管理 团队协作 数字化 ONES Qcon

SphereEx 获数百万美元天使融资,接力 ShardingSphere 开启 Database Plus 新篇章

SphereEx

设计微博系统中”微博评论“的高性能高可用计算架构

9527

一文带你搞懂RPC到底是个啥

万俊峰Kevin

c++ 微服务 RPC RPC 协议实现原理 srp

从一个HTTP请求来看网络分层原理

IT视界

计算机网络 网络协议 HTTP 网络层

走近设计模式:写代码一定要用设计模式吗?

华为云开发者联盟

设计模式 代码 软件设计 面向对象软件 GoF设计模式

重庆区块链公共服务平台—“渝快链”2.0正式发布

长连接网关技术专题(五):喜马拉雅自研亿级API网关技术实践

JackJiang

Netty nio 网关

JWT(auth0):RS256非对称加密算法实现Token的签发、验证

西门阿杰

Java Token RS256

6月日更,优质更文,“定制”来袭~

InfoQ写作社区官方

6月日更 热门活动

震惊,PostGIS还可以这样用!!!

华为云开发者联盟

数据库 分布式 GaussDB 地理数据库 PostGIS

知乎的一次29.7元的咨询

why技术

Java 程序员

阿里面试题:MySQL 磁盘满了,怎么办?

Java架构师迁哥

鸿蒙操作系统发布在即 万物互联时代将给开发者带来更多机遇

科技汇

开发人员应该害怕低代码吗?

禅道项目管理

程序员 低代码 开发 低代码平台

高并发存储优化篇:诸多策略,缓存为王

Coder的技术之路

缓存 缓存击穿 缓存雪崩 缓存架构

Spring 实例化方式有几种?为什么会用到 Cglib?

小傅哥

Java spring 小傅哥 cglib 手写框架

OpenResty入门

捉虫大师

nginx openresty

和12岁小同志搞创客开发:如何选择合适的传感器?

不脱发的程序猿

DIY 传感器 创客开发 如何选择合适的传感器?

千亿级数据迁移mongodb成本节省及性能优化实践

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

软件研发中的错误假设

赫杰辉

设计 低代码 研发工具 x-series

带你读论文丨异常检测算法及发展趋势分析

华为云开发者联盟

深度学习 异常检测算法 深度异常检测算法 深度半监督 群体异常检测

.Net Core Configuration Etcd数据源

yi念之间

etcd .net core

初探可编程网关 Pipy

张晓辉

代理 网关 服务网格

react源码解析1.开篇介绍和面试题

全栈潇晨

React React Hooks react源码

六一特辑丨8岁小程序员献礼儿童节:我DIY了聊天机器人,做3D printer,还想和外星人对话!

华为云开发者联盟

编程 程序员 开发者 代码 机器人

华云大咖说 | 华云数据助力高校建设实训室平台

华云数据

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略_生成式 AI_徐晓博_InfoQ精选文章