写点什么

面壁 WAIC 新发布:新一代高效低能耗架构面壁小钢炮、一键开发大模型 APP 的全栈工具集

  • 2024-07-06
    北京
  • 本文字数:1998 字

    阅读完需:约 7 分钟

面壁WAIC新发布:新一代高效低能耗架构面壁小钢炮、一键开发大模型APP的全栈工具集

7 月 5 日,面壁智能联合创始人、首席科学家刘知远在 WAIC 2024 “模型即服务(Mass)加速大模型应用落地”论坛进行了《大模型时代的摩尔定律,迈入更高效的大模型时代》主题演讲,并首次对外介绍:

 

  • 开源新一代高效、低能耗面壁小钢炮 MiniCPM-S 模型

  • 助力开发者一键打造大模型 SuperAPP 的全栈工具集 MobileCPM

 

演讲开场,刘知远表示:“摩尔定律揭示了集成电路可容纳晶体管数目约每隔 18 个月便会增加一倍的规律,在过去几十年中给半导体和互联网行业的发展带来了科学指导意义;身处大模型时代,我们亟需新的“摩尔定律”。我们根据过去几年在大模型领域的深耕和实践,对大模型的发展趋势进行观察总结,提出了大模型时代的面壁定律:大模型的知识密度不断提升,平均每 8 个月提升一倍。”



其中,知识密度=模型能力 / 推理算力消耗


如下图所示,相比 OpenAI 于 2020 年发布的 1750 亿参数的 GPT-3,2024 年初,面壁发布具备 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM-2.4B ,把知识密度提高了大概 86 倍。



不过这还不是面壁的极限,面壁持续优化 Scaling Law,使模型知识密度不断提升,不断训练出计算更加高效且表现更强(参数规模降低,数值位宽降低,结构更加高效)的基础大模型。面壁新一代高效稀疏架构大模型由此而生。

MiniCPM-S:新一代高效低能耗「面壁小钢炮」


为何人脑中的神经元数量与当代最大的基础模型可比,但能源和时间消耗却远低于大模型?这背后,稀疏激活是大脑得以实现低能耗的一大核心“技术”,通过不同任务调取不同⼤脑分区神经元,能源与时间消耗⼤⼤降低。


和大脑类似,采用稀疏激活也能够在同等参数下减少大模型的推理能耗——稀疏度越高,每个词元(token)激活的神经元越少,大模型的推理成本和能耗就越少。MiniCPM-S 1.2B 采用了高度稀疏架构,通过将激活函数替换为 ReLU 及通过带渐进约束的稀疏感知训练 ,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。


和同规模的稠密模型 MiniCPM 1.2B 相比,MiniCPM-S 1.2 具备:

  • Sparse-高稀疏低能耗:在 FFN 层实现了高达 87.89% 平均稀疏度,推理算力下降 84%;

  • Speed-神仙推理: 更少计算,迅疾响应。纯 CPU 环境下,结合 Powerinfer 推理框架,推理解码速度提升约 2.8 倍;

  • Strong-无损强大性能:更少计算量,无损下游任务性能;



另外,MiniCPM-S 1.2B 将知识密度空前提升:达到同规模稠密模型 MiniCPM 1.2B 的 2.57 倍,Mistral-7B 的 12.1 倍。



面壁“高效 Scaling Law” 仍在持续演绎。


相关开源链接:

  • 论文地址:https://arxiv.org/pdf/2402.13516.pdf

  • 模型地址:https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format

  • PowerInfer 可直接运行格式:https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf

开源大模型 APP 神器 MobileCPM:一键集成端侧大模型到 APP


此外面壁智能最新开源了业内首个端侧大模型工具集 “MobileCPM ",帮助开发者一键集成大模型到 APP。MobileCPM 开箱即用,包含了开源端侧大模型、SDK 开发套件以及翻译、摘要等丰富的 intent ,人人都可以一站式灵活地定制出满足不同应用场景需求的大模型 APP,低门槛速成「大模型创业者」。



MobileCPM 为开发者提供了三种模式:

  • 基础模式:包含了丰富的适配端侧⼤模型 APP 的 SDK 套件发者基于此即可⾃由灵活地搭建⼤模型 APP,但在这个过程中,基座模型和智能体仍需要开发者⾃⾏开发和接⼊;

  • 精装模式:在基础模式基础上,提供 1.2B 参数的⾯壁新⼀代⾼效稀疏⼤模型 MiniCPM-S,并且 MobileCPM 还支持任意端侧模型的集成,开发者可以根据具体需求选择替换其它端侧模型,并可以通过增加或修改 prompt 的方式定制多种 API,满足不同业务场景需求。

  • 全包配件模式:在精装模式的基础上预装丰富的 intent,并提供保姆式教程,开发者也可使用自定义 intent,减少开发时间,⼤幅提升应⽤的丰富性。

 

本次发布,MobileCPM 默认集成了面壁新一代高效稀疏架构模型 MiniCPM-S 1.2B ,一次性将智能密度拉满,更兼具:

  • 毫秒极速响应:得益于面壁小钢炮 MiniCPM 系列背后的高效大模型训练和推理工厂,MiniCPM-S 能够在毫秒级时间内完成推理和响应,确保用户体验的流畅性。

  • 零推理成本:无需云端 GPU,MiniCPM-S 专为端侧设备而生,在保证性能强大的同时大幅降低了计算资源的消耗,使得端侧推理几乎 0 成本。

  • 一键集成:大模型与 APP 无缝衔接;

  • 预装多种 intent,提供保姆式教程;


基于 MobileCPM 一键开发的示例 APP(端侧模型由 MiniCPM-S 支持),在 iPhone 15 离线环境下毫秒级对话响应,推理速度轻松可达约 30 tokens/s,相当于人类语速的 18~30 倍。


MobileCPM 拉开了端侧AI生态序幕,基于 MobileCPM,任何开发者都可以轻松打造自己的 SuperAPP,有效解决推理成本问题。PC 和智能手机时代,所有原有的应用都值得用高效端侧模型尝试一遍!


MobileCPM 现已全面支持 iOS 系统,Android 版本也即将上线,敬请期待。


  • 开源地址:

https://github.com/OpenBMB/MobileCPM

  • TestFlight 外测链接:

https://testflight.apple.com/join/dJt5vfOZ

2024-07-06 12:225953
用户头像
蔡芳芳 InfoQ主编

发布了 802 篇内容, 共 572.1 次阅读, 收获喜欢 2797 次。

关注

评论

发布
暂无评论
发现更多内容

混沌工程和故障演练

陈磊@Criss

经典神作!SpringBoot系列从入门到进阶,彻底搞懂SpringBoot

小小怪下士

Java spring 程序员 后端 springboot

OCR文字识别工具:OCRKit Pro 中文激活版

真大的脸盆

Mac 文字识别 OCR Mac 软件

供电电源的电磁兼容设计方法?5大要点快速收藏

华秋PCB

电磁 电路 兼容 电源 供电电源

这篇文章汇聚33个BUG!来挑战一下,看看你能找出来几个?

why技术

java

【2023Java面试题全集】实用、全面、系统,助你一路通关!

程序知音

Java java面试 后端技术 Java面试题 Java面试八股文

kubernetes 可观测性:10款开源工具

HummerCloud

Kubernetes 云原生

持续测试

陈磊@Criss

持续测试破解自动化测试的行业谜题

陈磊@Criss

开发域的质量

陈磊@Criss

这 8 类问题,SysOM 2.0 OOM 诊断助你快速定位异常 | 龙蜥技术

OpenAnolis小助手

开源 OOM 操作系统 龙蜥技术 SysOM

测试左移和右移

陈磊@Criss

中国消费级AR行业分析2023

易观分析

AR 消费级 眼镜

国内大型战略咨询企业都是怎么解决数字化转型难题的?

优秀

数字化转型

从需求管理到迭代规划,优秀的产品经理如何让工作更高效?

万事ONES

详解软件质量模型

陈磊@Criss

云运维过程注意事项简单讲解-行云管家

行云管家

云计算 企业上云 云管理 云运维

贼全!一举通关的Spring+SpringBoot+SpringCloud全攻略,是真香啊

程序知音

Java spring 编程语言 springboot SpringCloud

「Go工具箱」GoCSV包:一个能将结构体和csv内容互转的工具

Go学堂

Go 程序员 个人成长 csv CSV 文件导入

内卷了!阿里Java八股文面试题“惨遭”泄露,导致132人面进大厂

Java你猿哥

面经 金三银四 java 八股文 Java八股文

CCF BDCI“大数据平台安全事件检测与分类识别”赛题,奇点云夺冠

Geek_2d6073

上海堡垒机采购注意事项以及堡垒机厂商推荐

行云管家

信息安全 堡垒机 上海

云算力挖矿开发正式版丨云算力挖矿系统开发(APP开发案例)

系统开发咨询1357O98O718

基于Redis、Netty、Websocket实现红包雨活动

做梦都在改BUG

PyTorch深度学习实战 | 自然语言处理与强化学习

TiAmo

强化学习 PyTorch 自然语言

waf全称是什么?是干什么的?

行云管家

防火墙 waf

从私信到协作开发:GitHub Pull Request 的发展史

Bytebase

GitHub 协作 pull request

hoverfly 学习笔记

陈磊@Criss

知识蒸馏、轻量化模型架构、剪枝…几种深度学习模型压缩方法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

低代码工具选项难题浅析

赫杰辉

低代码平台

基于 Flink CDC 的实时同步系统

Apache Flink

大数据 flink 实时计算

面壁WAIC新发布:新一代高效低能耗架构面壁小钢炮、一键开发大模型APP的全栈工具集_生成式 AI_蔡芳芳_InfoQ精选文章