写点什么

又一家清华系 AI 公司“杀入”大模型赛道!百亿 token 免费用,简单拖拽可精调 20+ 大模型

  • 2024-03-31
    北京
  • 本文字数:3561 字

    阅读完需:约 12 分钟

大小:1.79M时长:10:26
又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型

3 月 31 日,无问芯穹在上海举办了一场以“多元计算·泛在链接”为主题的 AI 算力优化论坛暨产品发布会,无问芯穹发起人汪玉携联创团队首次集体公开亮相,并发布“无穹 Infini-AI”大模型开发与服务平台。上海市经济和信息化委员会副主任张宏韬、上海市徐汇区科学技术委员会主任张宁出席并致辞。多家国产大模型、算力芯片与硬件公司、智算机构高管现身,另有红杉中国、真格基金、徐汇资本与启明创投等多家创投机构代表出席。

 

发布会现场,汪玉教授首先谈及了创办无问芯穹的初心。在当前的教育和科研环境中,高校独立完成科学研究任务变得越来越困难。为了在激烈的竞争中生存并保持领先地位,高校必须展现出其强大的实力。然而,在这个过程中,大学所能做的事情受到了限制,尤其是在科研基础设施和资源方面。

 

必要的计算能力和制造平台的缺失限制了技术的发展。在芯片设计和研究领域,没有强大的平台支持,就难以推动研究的深入,甚至不知道关键问题所在。在这种情况下,即使完成了研究,发表了论文,这些成果也难以转化为实际生产力。高校在科研生产资料方面已经不再具备优势,必须与产业界紧密结合。

 

就这样,才有了今天的无问芯穹。那么,无问芯穹到底能帮助行业和用户解决什么问题?

 

一句话概括,就是希望帮助所有做大模型的团高性价比地落地大模型,助力大模型赋能千行百业。

算力难,有解法吗


有人调侃,比起“造福人类”,大模型更应该先呼吁“给我场景”。

 

无问芯穹认为恰恰相反,经历了互联网时代的高速发展,中国市场不缺应用场景,大模型的落地难,症结在于行业内正在持续遭遇的算力难题。想在成熟场景中应用大模型的企业,找到了算力但不会用,无法做出差异化的产品实现业务升级;想创造 AI-Native 应用的企业,算力成本难负担,工具链也不好用,产品启动投产比不合理;自行训练模型的企业,随着业务的拓展,往往找不到也买不起所需体量的算力,业务运行成本过高。

 

截至 2023 年年末,我国算力总规模达到每秒 1.97 万亿亿次浮点运算(197E FLOPs),位居全球第二,算力规模近 5 年年均增速近 30%。如此增速,为何行业内仍然感到算力尤其难?实际上背后的原因是,人工智能行业发展恰逢工程师人才红利爆发,加速了我国大模型行业的蓬勃发展,需求端“嗷嗷待哺”,而市面上仍存在大量未被收集和充分利用的算力资源,缺少一种足够成体系的“大模型原生”商业模式,将算力供给转化为满足市场需求的产品和服务。


无问芯穹认为,如果能够有效整合和优化这些算力资源,并设计出好的利用方式和工具,将极大地缓解大模型企业们面临的算力紧缺状况,帮助他们把今天的算力储备,转化为明天的竞争力。

让开发者花小成本、用好工具和充沛算力

 

会上,无问芯穹发布了基于多芯片算力底座的无穹 Infini-AI 大模型开发与服务平台,并宣布自 3 月 31 日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿 tokens 免费配额。



 开发者可以在这个平台上体验、对比各种模型能力和芯片效果,通过简单拖拽各种参数按钮的动作,就能精调出更贴合业务的大模型并部署在无穹 Infini-AI 上,再以非常优惠的千 token 单价向用户提供服务。

 

目前,无穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 闭源模型、Llama2、Qwen、Qwen1.5 系列等共 20 多个模型,以及 AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。第三方平台或自定义训练、微调而来的模型也可以无缝迁移托管到无穹 Infini-AI,并获得细粒度定制化的按 token 计费方案。



 “我们对模型品牌和芯片品牌的覆盖率还会持续提升,随着时间的推移,无穹 Infini-AI 的性价比优势会越来越突出。”无问芯穹联合创始人兼 CEO 夏立雪表示,未来无穹 Infini-AI 还将支持更多模型与算力生态伙伴的产品上架,让更多大模型开发者能够‘花小钱、用大池’,持续降低 AI 应用的落地成本。

 

一个月前,同道猎聘在部分城市发布了 AI 驱动的数字人面试官,且还有更多的 AI 功能正在筹备中,是由无问芯穹提供的弹性算力使用方案,并在无问芯穹的平台上基于开源大模型微调而成。相比市面上的其他方案,实现了更高的推理加速,也大幅降低了新功能上线的成本。

 

夏立雪表示,这一效果让无穹团队很有信心,所以除了开放全量注册,也正式启动了大算力需求方的测试邀请,提供更具性价比的算力、且在算法和硬件上更有纵深的算力优化服务。

 

算力性价比大幅提升,源自多芯片优化实力

 

“市面上有很多未被激活的有效算力,硬件本身差距在快速缩小,但大家在使用时总会遇到‘生态问题’。”夏立雪说,这是因为硬件的迭代速度总是比软件更慢、价格更高,软件开发者不希望工作中出现除自身研发工作之外的其他“变量”,因而总是会倾向于直接使用有成熟生态的芯片。



 无问芯穹希望帮助所有做大模型的团队“控制变量”,即在使用无问芯穹的算力服务时,用户不需要也不会感觉到底层算力的品牌差异。

 

成立不足一年的无问芯穹,何以能够在这么短时间内跑通多种计算卡上的性能优化?

 

2022 年底,大模型引发社会广泛关注后,夏立雪和他的导师汪玉认为,国内整体算力水平距离国际先进还有明显差距,光靠芯片工艺提升或是多元芯片的迭代已远远不够,需要建立一个大模型生态系统,让不同模型能自动部署到不同硬件上,让各种算力得到有效利用。

 

一年后,无问芯穹宣布了在英伟达 GPU 和 AMD 等芯片上取得的优化效果,取得了当时最好的计算加速效果,实现了大模型任务 2-4 倍的推理速度提升。随后,AMD 中国宣布与无问芯穹达成战略合作关系,双方将携手联合提高商用 AI 应用性能。



 两年之后,无问芯穹在本次发布会上展示了其在 10 种芯片上的性能优化数据,在每张卡上都显示已取得了目前行业内最优的性能优化效果。

 

“我们与各个模型、芯片伙伴都建立了强信任关系,”夏立雪对记者说:“一方面来自于我们面向大模型的计算优化实力,另一方面无问芯穹非常注重保护伙伴的数据安全。无问芯穹会持续保持中立性,并且也不会与客户产生利益冲突,这是我们业务开展的基础。”

从云到端,将软硬件一体联合优化进行到底

 

“Transformer 统一了这一轮的模型结构,并且表现出持续取得应用突破的趋势。”汪玉在开场发言中说:“从前我们在 AI 1.0 时代,做上一家公司,只能做很小一部分 AI 任务。今时不同往日,大模型结构统一了,依靠生态建立起来的硬件壁垒正在‘变薄’。”

 


得益于世界范围内正涌起的 AI 浪潮,以及中国市场的独特机会,无问芯穹面对的是一次巨大的技术机遇。Transformer 在设计时天然基于并行计算架构,规模越大的大模型带来的智能效果越好,使用的人越多,其所需的计算量也越大。


 “无问芯穹正在做的是‘大模型原生’的加速技术栈。”无问芯穹的联合创始人兼 CTO 颜深根表示,大模型落地依赖算法、算力、数据,还有系统。算力决定了大模型的速度,设计优良的系统则能释放出更多硬件潜力。无问芯穹的团队曾搭建过数万片 GPU 级的大规模高性能 AI 计算平台,具备万卡纳管能力,并基于自运营集群成功搭建了云管系统,已实现跨域多云间的统一调度。

 

“在端侧,人们则更加倾向于快速将大模型的能力落到人机交互的界面上,提升实用体验。”无问芯穹联合创始人兼首席科学家戴国浩认为,未来,凡是有算力的地方,都会有 AGI 级别的智能涌现。而每一个端上的智能来源,就是大模型专用处理器 LPU。戴国浩宣布,“无穹 LPU 将于 2025 年面世。”


大模型处理器 LPU 可以提升大模型在各种端侧硬件上的能效与速度。戴国浩在发布会上向观众展示了“一张卡跑大模型”,作为 LPU 的基础,其团队于今年 1 月初推出的全球首个部署于 FPGA 的大模型推理 IP,通过大模型高效压缩的软硬件协同优化技术,使得 LLaMA2-7B 模型的 FPGA 部署成本从 4 块卡减少至 1 块卡,并且性价比与能效比均高于同等工艺 GPU。未来,无问芯穹的端侧大模型专用处理器 LPU,可以被模块化地集成到各类端侧芯片中。

 

发布会尾声,无问芯穹宣布与紫光展锐签署大模型端侧部署战略合作,双方宣布将共同探索大模型在端上的部署与性能提升。


此外,无问芯穹还宣布了与燧原科技共同发布 i20 千卡集群战略合作,无穹 Infini-AI 平台与燧原科技 i20 千卡集群已顺利完成完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用燧原科技智算集群,完成大模型推理任务。

 

同时,无问芯穹宣布与摩尔线程签署战略合作备忘录,双方将开展深度合作。目前无穹 Infini-AI 平台和基于摩尔线程大模型智算加速卡 MTT S4000 的千卡集群已顺利完成系统级融合。通过无穹 Infini-AI 平台,可以灵活调用摩尔线程夸娥千卡智算集群,完成大模型高效训练与微调任务。


无问芯穹还宣布与智谱 AI 联合发布大模型万卡训推计划,双方将携手共建大模型训推万卡集群,在大模型训练推理优化、算力集群性能提升等方面展开深度合作。


该万卡集群将面向大模型行业应用,提供端到端模型与算力服务,围绕技术创新和产业发展需求,以算力集群赋能行业创新。

 

2024-03-31 23:002772
用户头像
李冬梅 加V:busulishang4668

发布了 1061 篇内容, 共 679.1 次阅读, 收获喜欢 1223 次。

关注

评论

发布
暂无评论
发现更多内容

联联周边游系统源码

Geek_a620db

大作业2

龙卷风

架构师一期

SpringBoot系列(7)- 自动装配

引花眠

springboot

软件测试所需要掌握的技能

测试人生路

软件测试

为什么线程安全的List推荐使用CopyOnWriteArrayList,而不是Vector

Java旅途

Java List 线程安全 vector

架构师训练营大作业 (二)

木头发芽

PiNetwork 挖矿算力系统开发

Geek_a620db

7年Java开发经验,面试20多家公司,砍下16个Offer,总结干货面试题!

Java架构追梦

Java 架构 面试 大厂

阿里云仓库使用小技巧

Java maven

阿里云开源项目 OAM 负责人张磊入选「中国开源先锋 33 人」

阿里巴巴云原生

开源 开发者 云原生 k8s cncf

ARTS打卡 第28周

引花眠

微服务 ARTS 打卡计划 springboot

漏洞扫描软件AWVS的介绍和使用

行者AI

安全 漏洞

LTN挖矿系统开发

Geek_a620db

企业使用云计算低效益怎么办?区块链或成良药

CECBC

云计算

区块链食品溯源系统开发,农产品溯源小程序搭建

13530558032

批量作业调度工具Taskctl Web应用版/ETL免费调度工具/数据挖掘,抽取,转换工具

敏捷调度TASKCTL

数据挖掘 大数据 kettle 运维自动化 海豚调度

道高一丈,且看CWE4.2的新特性

华为云开发者联盟

技术 安全 漏洞

利用文字技术帮助选购商品,慧眼“识”物的人都这样做……

华为云开发者联盟

文字识别 智能 识别

如何基于SDK快速开发一款IoT App控制智能灯泡(Android版)

IoT云工坊

android App 物联网 API sdk

搜狗开源框架发布纯自研C++ Kafka客户端

高速增长的跨境电商业务背后,区块链应用场景来了吗?

CECBC

跨境电商

智慧平安小区整体解决方案,智慧社区管控系统开发

13530558032

译|Optimal Logging

cyningsun

监控 日志 异常 故障 错误

从根上理解高性能、高并发(二):深入操作系统,理解I/O与零拷贝技术

JackJiang

网络编程 高并发 高性能 即时通讯

架构师训练营大作业(一)

木头发芽

STARFIELD星域APP系统开发|STARFIELD星域软件开发

系统开发

区块链电子合同铸就数字经济信任基石

CECBC

电子合同

Seata-AT 如何保证分布式事务一致性

阿里巴巴云原生

云计算 开源 分布式 微服务 云原生

Dubbo 3.0 前瞻系列:服务发现支持百万集群,带来可伸缩微服务架构

阿里巴巴云原生

开源 微服务 云原生 dubbo 中间件

你真的会学习吗?从结构化思维说起

阿里巴巴云原生

云原生 技术人 自我思考 职场成长 成长笔记

阿里“云钉一体”加速整合 低代码开发平台“钉钉宜搭”发布

人称T客

又一家清华系AI公司“杀入”大模型赛道!百亿token免费用,简单拖拽可精调20+大模型_机器学习/深度学习_李冬梅_InfoQ精选文章