写点什么

1 个芯片顶英伟达 3 个?这个偏爱印度的创始人爆肝 8 年,终于等来抢英伟达泼天富贵的一天!

  • 2024-06-24
    北京
  • 本文字数:4122 字

    阅读完需:约 14 分钟

大小:1.99M时长:11:35
1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!

据报道,在 AI 领域与英伟达正面竞争的高性能计算机芯片初创公司 Cerebras Systems 已经向美国证券监管机构提交了保密文件,准备在纳斯达克证交所开启自己的首轮公开募股(IPO)。

 

消息最先由 The Information 网站传出,其中援引一位参与决策的匿名人士的发言,称 IPO 预计将在今年晚些时候进行。

 

Cerebras Systems 是一家专业且颇具能力的计算机芯片生产商,成立于 2016 年,主要面向 AI 及高性能计算(HPC)类工作负载。过去一年以来,该公司曾多次登上头条新闻,声称其芯片不仅比英伟达的图形处理单元更强大,而且成本效益也更加出色。今年 4 月,Cerebras Systems 以 285 亿人民币的企业估值入选《2024·胡润全球独角兽榜》。

凭什么跟英伟达掰手腕?

 

英伟达已经成长为当今世界市值最高的公司,甚至一度没有“之一”,而其背后的驱动力主要是生成式 AI 热潮,而这股浪潮丝毫没有放缓的迹象。随着世界各地企业争相将强大的 AI 工具整合进自己的系统和应用程序当中,他们开始疯狂采购 GPU,并在过去一年间将英伟达的数据中心业务收入推高超 400%。

 

尽管有能力站在英伟达对面与其竞争的对手不多,但 Cerebras 正是其中之一。他们的旗舰产品、全新 WSE-3 处理器发布于今年 3 月,底子则是 2021 年首次亮相的前代 WSE-2 芯片组。

 

Cerebras 的 WSE-3 芯片被认为是英伟达强大 GPU 产品的替代。

 

WSE-3 采用 5 纳米制程工艺,在晶体管数量上达到了惊人的 4 万亿,比其前代芯片多出 1.4 万亿个晶体管,拥有超过 90 万个计算核心和 44 GB 的片载静态随机存取存储器。外部用户可以灵活选择 1.5TB、12TB、甚至高达 1200TB 的内存容量。

 

根据这家初创公司的介绍,WSE-3 的核心数量达到单张英伟达 H100 GPU 的 52 倍。这款芯片将作为数据中心设备 CS-3 的核心器件,而 CS-3 的尺寸与小型冰箱差不多。WSE-3 芯片则跟批萨饼大小相当,还配有集成的冷却与电源传输模块。

 

尽管在核心数量和缓存容量的增幅上并不突出,但 WSE-3 的性能表现却实现了质的飞跃。Cerebras WSE-3 据称峰值浮点运算速率可达 125 PFLOPS(PetaFLOPS,千万亿次每秒),即一天内就能够完成 Llama 700 亿参数的训练任务。Cerebras 表示,这样的规格足以让 WSE-3 与英伟达旗下最顶尖的 GPU 相匹敌。该公司解释称,其芯片性能卓越,能够以更快的速度、更低的功耗高效处理 AI 工作负载。

 

该款芯片预计将于今年晚些时候上市。

大模型训练:CS-3 VS B200

 


Cerebras CS-3 和 B200 对比

 

训练大型 AI 模型时,性能的首要决定因素是浮点性能。凭借 90 万个专用 AI 核心,Cerebras CS-3 采用行业标准 FP16 精度,实现了 125 PFLOPS 。而单个 Nvidia B200 GPU 是 4.4 PFLOPS,8 个 GPU 的 DGX B200 是 36 PFLOPS。

 

”在原始性能方面,单个 CS-3 相当于 3.5 个 DGX B200 服务器,但是占用的空间更小,功耗只有原来的一半,编程模型也非常简单。”



人工智能开发经常遇到内存限制的问题,OOM(内存不足)经常导致训练失败。万亿参数规模的模型只会加剧这个问题——需要 TB 级内存、数百个 GPU 和复杂的模型代码来管理内存和编排训练。

 

为此,Cerebras 硬件没有采用 GPU 最强“辅助”HBM(High Bandwidth Memory)方式,而是采用了独特的分解内存架构,并设计了名为 MemoryX 的专用外部存储设备来存储权重。MemoryX 使用闪存和 DRAM 以及自定义软件堆栈,以最小的延迟管道加载/存储请求。

 

“我们 1200TB 超大规模 SKU 专为 GPT-5 及更高版本而设计,可训练 24 万亿参数的大模型。它的内存容量比 B200 GPU 多 6,000 倍,比 DGX B200 多 700 倍,比全机架 NVL72 多 80 倍。”该公司提到。

 

另外,CS-3 的分解式内存架构可以将数 PB 的内存连接到单个加速器,使其在处理大型模型时具有极高的硬件效率。


高互连性能对于多芯片的高利用率至关重要。DGX B200 等 GPU 服务器是通过 NVLink 实现。NVLink 是一种专有互连,可在服务器内部的 8 个 GPU 之间提供专用链接。CS-3 互连系统则采用完全不同的技术构建:在晶圆上布线将数十万个内核连接在一起,以最低的功耗提供最高性能。

 

“CS-3 为 90 万个核心提供每秒 27 PB 的总带宽,这比 1800 台 DGX B200 服务器的带宽还要高。”该公司表示。

 

另外在上个月,Cerebras 还与桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室以及洛斯阿拉莫斯国家实验室的研究人员合作,在毫秒级速度下展示了上代 WSE-2 硬件进行原子级材料模拟时的性能表现。在相关研究论文中,该公司提到 WSE-2 的性能水平惊人,模拟速度可达到配备 3.9 万张英伟达 GPU 的便于最强超级计算机 Frontier 的 179 倍。

 

该公司产品与战略高级副总裁 And Hock 在上个月接受采访时指出,“简单堆叠任何数量的 GPU 都不可能获得这样的结果。我们正在根本上为分子动力学研究解锁新的时间尺度。”

 

创始人:公司被 AMD 收购后再创业

 

Cerebras 是一支由先驱计算机架构师、计算机科学家、深度学习研究人员以及热爱无畏工程的各类工程师组成的团队,目前已在加拿大和日本分别设立了办事处。

 

提到这家公司的创始团队,不得不提 2012 年被 AMD 以 3.34 亿美元收购的微型服务器公司 SeaMicro。

 

这次收购在当年也引发了很大关注,被评“对低功耗服务器领域来说具有颠覆性意义”,因为 SeaMicro 一直在其下一代服务器中使用英特尔芯片,SeaMicro 的网络结构允许数百个低功耗处理器协同工作。SeaMicro 架构与处理器无关,这意味着它可以快速适应 AMD 的技术。

 

而 SeaMicro 创始人 Andrew Feldman 也是如今 Cerebras 的联合创始人兼 CEO。

 

Andrew 拥有斯坦福大学的学士学位和工商管理硕士学位。在 2007 年创立 SeaMicro 之前,Andrew 是 Force10 Networks 的产品管理、营销和业务拓展副总裁,该公司后来以 8 亿美元的价格出售给戴尔。在加入 Force10 Networks 之前,Andrew 曾担任 RiverStone Networks 的营销和企业发展副总裁(从公司成立到 2001 年 IPO)。

 

值得注意的是,Andrew 认为印度是 Cerebras 的优先事项,理由是该国拥有巨大的工程人才、顶尖大学和不断发展的人工智能生态系统。

 

该公司的 CTO Gary Lauterbach 也是 SeaMicro 的联合创始人,后来也同样加入了 AMD。 Gary 是计算机架构大牛,曾担任 Sun SPARC Ⅲ和 UltraSPARC Ⅳ微处理器的首席架构师。在 Sun 实验室,他是 DARPA HPCS Petascale 计算项目的首席架构师,他本人拥有 50 多项专利。SeaMicro 微服务器领域的领先技术也离不开 Gary。在 SeaMicro 工作期间,Gary 还是美国能源部 930 万美元节能计算拨款的首席研究员。

 

Andrew 和 Gary 两人共事已超过 12 年。

 

另一位技术负责人 Sean Lie 也曾在 SeaMicro 公司担任 IO 虚拟化结构 ASIC 的首席硬件架构师。

 

Sean 拥有麻省理工学院电子工程和计算机科学学士学位和硕士学位,并在计算机体系结构方面拥有 16 项专利。在 SeaMicro 被 AMD 收购后,Sean 成为 AMD 研究员和首席数据中心架构师。早期职业生涯中,他在 AMD 的高级架构团队工作了五年。

 


Cerebras 还聘请了有超过 24 年执行领导经验的 Vinay Srinivas 担任软件工程高级副总裁。

 

Vinay 拥有印度理工学院孟买分校的学士学位以及佛罗里达大学的硕士学位和博士学位。他曾在 Synopsys(一家美国电子设计自动化公司) 工作了 12 年,离职前担任仿真产品线的工程副总裁。早前,Vinay 还曾分别在 Archpro Design Automation 、Sequence Design 担任研发副总裁。

 

首席运营官 Dhiraj Mallick 之前也曾担任 SeaMicro 的工程副总裁,公司被收购后他继续在 AMD 担任公司副总裁和服务器解决方案部门总经理。他拥有超过 20 年的领导经验,在加入 Cerebras 前是英特尔价值 200 亿美元的数据中心业务的首席技术官和架构副总裁。同时,Dhiraj 还担任了几家风险投资公司顾问,并拥有斯坦福大学的电气工程硕士学位。

 

Cerebras Systems 的产品管理副总裁 Andy Hock 此前是高分辨率卫星制造商 Skybox Imaging 的高级技术总监,该公司后来被谷歌以 5 亿美元收购。收购后,他继续在谷歌担任产品经理。Andy 拥有加州大学洛杉矶分校地球物理和空间物理学博士学位,在加入 Skybox 之前是 Arete Associates 的高级项目经理、业务开发主管和高级科学家。

 

被资本看好

 

考虑到英伟达这位竞争对手在过去一年间取得的令人瞩目的收益,Cerebras 作为少数能够与之竞争的芯片制造商之一,自然有理由受到投资者们的热烈追捧。

 

Constellation Rsearch 公司的 Holger Mueller 表示,如果 Cerebras 真像其宣称的那样具有竞争力,完全有可能在华尔街金融市场上引发轰动。

 

Mueller 解释道,“英伟达前阵子刚刚成为全球市值最高的上市公司。面对这泼天的富贵,竞争态势也开始快速加剧,包括不少来自传统芯片行业以外的竞争对手。Cerebras 确实有可能成为英伟达的潜在竞争对手,他们在芯片的制造和销售方面采取了差异化的发展路线,而且似乎有望吸引到足量资金以投入到这场耗资甚巨的 AI 军备竞赛当中。”

 

截至目前,该公司已累计融资 7.2 亿美元,估值约为 42 亿-50 亿美元。

 

在其官网的投资者一栏中,还可以看到 OpenAI 的身影,比如 Sam Altman、Greg Brockman、Ilya Sutskever 等,其中 Altman 曾参与 Cerebras 的 8000 万美元 D 轮融资,Cerebras 在官网将其列在投资人的第一位。


在 The Information 的报道中,消息人士透露称为了进一步吸引投资者,Cerebras 已经通知公司注册地特拉华州的监管机构,他们计划为即将到来的 F1 轮融资提供优先股。与上一轮融资相比,其股票发行价将有“大幅折扣”,希望借此增强上市发行的吸引力。

 

尽管 Cerebras 本身对其 IPO 计划讳莫如深,但彭博社此前报道称,该公司已经选择花旗集团作为其上市领投银行。在与多家 IPO 咨询机构进行多次讨论后,Cerebras 最终选择了这家银行。报道还提到,该公司的目标是最早在 2024 年下半年上市,且预期市值至少应高于其 2021 年最新一轮 2.5 亿美元 F 轮融资时对应的 40 亿美元估值。

 

消息人士还在 The Information 报道中指出,Cerebras IPO 的具体细节尚未确定,可能会根据投资者们的实际反应做出调整。

 

参考链接:

https://siliconangle.com/2024/06/20/ai-chipmaker-cerebras-systems-competitor-nvidia-reportedly-files-ipo/

https://www.cerebras.net/blog/cerebras-cs-3-vs-nvidia-b200-2024-ai-accelerators-compared

https://www.theinformation.com/articles/cerebras-an-nvidia-challenger-files-for-ipo-confidentially?offer=rtsu-engagement-24&utm_campaign=RTSU+-+Cerebras+IPO&utm_content=4480&utm_medium=email&utm_source=cio&utm_term=3006

2024-06-24 16:327635

评论 1 条评论

发布
用户头像
read
2024-06-27 13:48 · 广东
回复
没有更多了
发现更多内容

厉害了!阿里内部都用的Spring+MyBatis源码手册,实战理论两不误

小Q

Java spring 学习 面试 mybatis

容器和虚拟机到底有啥区别?

网管

容器 虚拟机

直播卖货已成趋势

anyRTC开发者

音视频 WebRTC RTC

为什么容器内存占用居高不下,频频 OOM

996小迁

Java 架构 容器 面试 k8s

Java中NullPointerException的完美解决方案

Silently9527

java8 Optional

《程序员面试金典》.pdf

田维常

面试

程序员如何判断跳槽岗位是否有坑!

Java架构师迁哥

Java中的线程与C++中的区别

jiangling500

Java c++ 线程

甲方日常 52

句子

工作 随笔杂谈 日常

这份算法攻略,我拿到了5个大厂的offer

yes

面试 算法 笔试

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

阿里云CloudImagine

架构 云直播 直播 流媒体 直播架构

.net core增强工作流组件,基于稳定平台,多项目整合开发

雯雯写代码

基于Vue实现一个有点意思的拼拼乐小游戏

徐小夕

Java GitHub 开源 H5游戏 H5

影视剪辑类自媒体运营心得:如何抓住观众的痛点

石头IT视角

go-zero 如何扛住流量冲击(一)

万俊峰Kevin

microservice go-zero goctl Go 语言

接口测试并不只是测试参数和返回值

测试人生路

接口测试

有点意思的gif动图生成平台开发实战(二)

徐小夕

Java Vue 大前端 GIF React

这才是图文并茂:我写了1万多字,就是为了让你了解AQS是怎么运行的

鄙人薛某

Java 并发编程 AQS 并发 ReentrantLock

读完某C++神作,我只记住了100句话

MySQL从删库到跑路

c++

Vokenization:一种比GPT-3更有常识的视觉语言模型

脑极体

SQL数据库集合运算

正向成长

SQL表联结 SQL集合运算

6个JDK自带JVM调优工具,一次性打包给你说清楚

田维常

jvm调优

微服务架构中的“参天大树”:SpringBoot+SpringCloud+Docker

小Q

Java 学习 容器 面试 微服务

SpringBoot-技术专题-Hystrix学习介绍

码界西柚

【JVM】肝了一周,吐血整理出这份超硬核的JVM笔记(升级版)!!

冰河

性能优化 内存模型 JVM 堆栈 JVM笔记

区块链数字货币商城系统开发模式

薇電13242772558

区块链 数字货币

支撑2715​亿元海量订单 揭秘京东大促背后的数据库基石

京东科技开发者

数据库 数据仓库 云服务 云数据库

解读登录双因子认证(MFA)特性背后的TOTP原理

华为云开发者联盟

算法 totp 密钥

2020年底备战—从技术到面试合集

iOSer

ios 编程 面试

响应式关系数据库处理R2DBC

程序那些事

MySQL R2DBC 程序那些事 响应式系统 响应式数据库

什么是服务器租用?

德胜网络-阳

1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!_AI&大模型_褚杏娟_InfoQ精选文章