写点什么

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

  • 2023-12-12
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

大小:660.17K时长:03:45
英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

QCon 全球软件开发大会,将于 12 月在上海召开。英特尔数据中心与人工智能事业部 AI 软件架构师何普江将发表题为《大模型时代:最大化 CPU 价值的优化策略》主题分享,探讨一种结合 CPU 和 GPU 的投机采样方法,在大语言模型时代充分利用 CPU 资源的关键策略,以及最新的性能情况,以便了解这些优化策略的实际效果。


何普江,2007 年硕士毕业于中国科学技术大学。精通英特尔软件架构、英特尔产品与技术以及 IA 平台性能优化。在英特尔工作期间,为国内主流 ISV 开发出基于 IA 平台的云计算产品过程中提供关键支持,并优化了多家主要互联网公司的核心产品,使其性能提升数倍。对 PyTorch,Tensorflow 等 AI 框架有深入研究,并拥有 10 年以上软件优化经验。工作期间曾获得英特尔中国个人员工最高荣誉奖,与国内互联网厂商多个部门进行深度合作,并在 2019 年助力某云厂商云在 MLPerf 评测中创下了业界领先的 Performance/TOPS 性能记录。他致力于基于 IA 架构平台的深度学习、机器学习研究和在互联网行业的落地推广工作,最新工作包括创建并开源了 CPU 上大语言模型的极致优化方案 xFasterTransformer。他在本次会议的演讲内容如下:


演讲:大模型时代:最大化 CPU 价值的优化策略


本次演讲将探讨在大语言模型时代充分利用 CPU 资源的关键策略。具体介绍一些结合硬件特性的优化方法,例如利用 CPU 的多核特性、采用并行计算和 AMX 指令集扩展技术来提高处理速度。


此外还将介绍一种结合 CPU 和 GPU 的投机采样方法,通过在 CPU 上运行部分计算任务,充分利用 CPU 资源并减少对 GPU 的依赖。最后,我将分享一些最新的性能情况,让您了解这些优化策略的实际效果。通过这些方法,您将能够更好地利用 CPU 资源,提高模型推理速度,以更快速高效的实现生成式模型部署落地。


演讲提纲:


  1. 大语言模型时代为什么需要最大化 CPU 价值

  2. CPU 上的大模型优化策略

○ 大语言模型计算特点

○ CPU 硬件特性概览

○ 优化方法

○ 从向量化到张量化

○ 从并行执行到分布式推理

○ 低精度优化

○ 深入 CPU 微架构的软件优化

○ 各优化策略的实际性能数据对比及效果展示

  1. 结合 CPU 和 GPU 的投机采样方法

○ CPU 和 GPU 协同工作的背景

○ 投机采样技术的介绍

○ 利用 CPU 进行部分计算任务的优势

○ 优化方法:选择合适的投机采样策略、任务调度等

  1. 总结与展望

○ 各优化方法的核心优势与局限性总结

○ 对未来大语言模型时代的展望与挑战


听众收益点:


○ 理解并结合硬件特性进行优化,提高模型推理速度和处理能力

○ 了解 CPU 上的最新性能情况,为实际业务的大模型线上部署提供更多选择

○ 掌握结合 CPU 和 GPU 协同工作的优化策略,减少对 GPU 的依赖,提高资源利用率


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月!9 折优惠仅剩最后 4 天,现在购票立减¥680!咨询购票请联系:18514549229(微信同手机号)。



2023-12-12 11:304199
用户头像

发布了 89 篇内容, 共 48.4 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

分布式消息流平台:不要只想着Kafka,还有Pulsar

华为云开发者联盟

kafka 云原生 pulsar 消息 分布式消息流平台

有人在恶意提权吗?

BUG侦探

Linux 主机安全 提权

实战 实时物体检测YOLOv3 CNN卷积神经网络John 易筋 ARTS 打卡 Week 63

John(易筋)

ARTS 打卡计划

实用?HUAWEI高工总结出15W字的图解计算机操作系统指南手册

Java~~~

Java 架构 面试 TCP 网络协议

TDSQL演进三部曲

腾讯云数据库

tdsql #数据库

出自清华大神之手的JVM实战手册,刚上架GitHub点赞就达到85k

Java~~~

Java 架构 面试 JVM 多线程

Github星标百万!终于有人将Spring技术精髓收录成册

Java 编程 程序员 架构 面试

让GitHub炸锅的深入理解MySQL实战手册,竟出自阿里云“藏经阁”

Java~~~

Java MySQL 数据库 架构 面试

Alibaba内部的10w字Java高频面试手册遭人恶意在牛客网开源下载?

Java~~~

Java 架构 面试 JVM 多线程

腾讯云TDSQL:真正面向金融行业的典型场景

腾讯云数据库

数据库 tdsql

求阿里大神整理的分布式核心笔记出炉了,GitHub刚发布就标星85k

Java~~~

Java 负载均衡 架构 面试 分布式

滴滴最看重的SpringCloud手册曾被疯狂转载,现在学还有用吗?

Java~~~

Java 架构 面试 微服务 Spring Cloud

GitHub经典教材!阿里P8的这份SpringBoot精髓到底厉害在哪里?

Java~~~

Java 架构 面试 微服务 Spring Boot

Alibaba新产!Spring+SpringBoot+SpringCloud全家桶进阶小册

Java~~~

Java spring 架构 面试 Spring Boot

不吹不黑!阿里新产微服务架构进阶笔记我粉了!理论实战齐飞

Java 程序员 架构 面试 微服务

Elasticsearch可观测最佳实践分享!3分钟带你快速入门!

观测云

elasticsearch

腾讯云数据库TDSQL:分布式数据库,你真的了解吗?

腾讯云数据库

数据库 tdsql

实时消息RTM| 多活架构中的数据一致性问题

anyRTC开发者

音视频 WebRTC 数据一致性 实时消息 数据容灾

GitHub上火了这份堪称神级的SpringBoot手册,竟出自滴滴之手

Java~~~

Java spring 架构 面试 Spring Boot

腾讯云TDSQL,从数据库巨人身上撕开一道口子

腾讯云数据库

数据库 tdsql

33张图解析ReentrantReadWriteLock源码

程序猿阿星

源码分析 读写锁 ReentrantReadWriteLock 源码解读

在FL Studio中如何使用混音器的效果

懒得勤快

Java多线程:从基本概念到避坑指南

Java 架构 后端 JVM 计算机

三顾茅庐,七面阿里,25k*16offer,还原我的大厂面经

Java 程序员 面试 后端 计算机

从动物科学到乐队鼓手,腾讯技术小哥的开源人生

腾源会

腾讯云 开源

TDSQL云时代,我们需要怎样的数据库?

腾讯云数据库

数据库 tdsql

一文详述如何卸载SQL Server 2019及其 DBMS

Regan Yue

数据库 SQL语言 9月日更

在职字节师兄分享出了这份数据结构手册,LeetCode现已开放下载

Java~~~

Java 架构 面试 算法 刷题

如何实现 Android 短视频跨页面的流畅续播?

阿里云CloudImagine

android App 音视频 Video播放器 APP开发

爆赞!GitHub上首本IntelliJ IDEA操作手册,标星果然百万名不虚传

Java~~~

Java 架构 面试 IDEA 架构师

操作系统的IO模型

Java 程序员 架构 操作系统 计算机

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略_生成式 AI_徐晓博_InfoQ精选文章