9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

  • 2024-09-11
    北京
  • 本文字数:1677 字

    阅读完需:约 6 分钟

大小:830.82K时长:04:43
面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi

近日,面壁智能宣布,旗舰端侧模型面壁「小刚炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。


据介绍,MiniCPM 3.0 量化后仅 2GB 内存,端侧友好,主要特点包括:


  • 无限长文本,榜单性能超越 Kimi,超长文本也不崩;

  • 性能比肩 GPT-4o 的端侧最强 Function Calling;

  • 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。


MiniCPM 3.0 开源地址:


GitHub:

🔗 https://github.com/OpenBMB/MiniCPM

HuggingFace:

🔗 https://huggingface.co/openbmb/MiniCPM3-4B


“提前近 4 个月,我们实现了初代面壁小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来!”面壁智能团队表示。


据悉,MiniCPM 3.0 再次挖掘端侧模型的极致性能,仅 4B 参数,在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超,在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。



历经数次调整,面壁团队构建了全新技术架构。围绕 Scaling Law 的核心,面壁将提升知识密度视为高效大模型的第一性原理(知识密度 = 模型能力 / 参与计算的模型参数),并且提出了大模型时代的“摩尔定律”:模型知识密度不断提升,平均每 8 个月提升一倍,内部称为“面壁定律”。


新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身,在这些呼声极高的模型功能上,MiniCPM 3.0 集结各家所长。

面壁“无限”长文本,性能超 Kimi


上下文长度是衡量大模型基础能力的一项重要指标,更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”,不仅能提高大模型处理数据的能力上限,还能拓宽大模型应用的广度和深度。


面壁提出 LLMxMapReduce 长本文分帧处理技术 ,一举实现“无限”长文本。除了超越 GPT-4、KimiChat 等标杆模型的优异表现( InfiniteBench 榜单成绩),面壁还表示,文本越长,4B 小钢炮凭借愈加稳定的表现,可以展现出越强的性能优势。



InfiniteBench 大模型长文本能力的权威评测集


检索、数学、代码、问答和摘要等多维度能力评估


① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B;

② 千亿模型 Qwen2-70B、Llama3-70b 结合 LLMxMapReduce 也取得更佳表现。



InfiniteBench Zh.QA 评测结果显示,4B 参数的面壁小钢炮整体性能优于 Kimi,在更长的文本上表现出相较更强的稳定性。



LLMxMapReduce 技术框架图


GPT-4o 级 Function calling ,终端 Agent 应用蓄势待发


智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是 Function Calling(函数调用),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。


据介绍,MiniCPM 3.0 拥有端侧最强 Function calling 性能 ,在权威评测榜单 Berkeley Function-Calling Leaderboard 上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。



RAG 外挂三件套


端侧模型也能“开外挂”,RAG(检索增强生成技术)让模型引用外部知识库,检索到最新、最可靠的专业知识,确保生成内容更加可信,大大减少大模型的幻觉问题。大模型 +RAG 在行业中极其实用,尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。


这次,面壁一口气带来超强 RAG 外挂三件套:MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向 RAG 场景的 LoRA 插件(生成模型),款款优秀:


  • MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三 ;

  • MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能 ;

  • 经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。


2024-09-11 16:587580

评论

发布
暂无评论
发现更多内容

25年IT信息安全靠谱保障办法看这里!

行云管家

网络安全 信息安全 IT安全

龙蜥邀您参加 2025 全国大学生计算机系统能力大赛操作系统设计赛

OpenAnolis小助手

操作系统 开源大赛

基于TiDB的应用多活架构

陈一之

TiDB 多活容灾 应用多活

CommunityOverCode Asia 2025议题征集倒计时,DataOps 分论坛等你发声

白鲸开源

在BeeWorks中,网盘和即时通讯如何互相集成?

BeeWorks

即时通讯 IM 企业级应用

内部聊天软件,BeeWorks-安全的企业内部通讯软件

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

巴塞罗那对阵塞尔塔:一场事关竞逐西甲联赛冠军与冲击欧战资格的较量

新消费日报

重构智能设备管理范式:火山引擎端智能解决方案上新,多重 AI 服务即刻享用!

火山引擎开发者社区

出版社题库管理系统的测试

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

热门活动速递 | AI 原生应用开发实战营·深圳站

阿里巴巴云原生

阿里云 云原生

AI阅读眼动就翻页,领权益解锁HUAWEI Pura X内容新体验

最新动态

技术干货推荐:高效解决性能瓶颈与抖动之进程热点追踪

OpenAnolis小助手

操作系统 SysOM 操作系统控制台

抖音电商如何用扣子 Coze 打造 AI 客服?

火山引擎开发者社区

出版社题库管理系统的技术架构

北京木奇移动技术有限公司

软件外包公司 出版社 题库管理系统

域名有哪些状态?不同的域名状态分别代表什么意思?

国科云

人工智能与网络安全:AI如何预防、检测和应对网络攻击?

天津汇柏科技有限公司

人工智能 网络安全 AI 人工智能

深入研究:微店商品详情API接口详解

tbapi

微店商品详情接口 微店API 微店数据采集

ArkUI-X 5.0.4 Release:跨平台开发的全新体验

坚果

鸿蒙 HarmonyOS 坚果派

深度探讨操作系统运维、软件选型等社区标准,龙蜥标准化 SIG MeetUp 圆满举办

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥sig 标准化 SIG 龙蜥meetup

2025 全球分布式云大会演讲实录 | 沈建发:智启边缘,畅想未来:边缘计算新场景落地与 Al 趋势新畅想

火山引擎边缘云

人工智能 边缘计算 AI 大底座 边缘智能

K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定

北京好雨科技有限公司

k8s rainbond 企业号 4 月 PK 榜 gpu 算力 DeepSeek R1 模型

如何开拓亚洲加密货币市场?一文解析亚洲国家差异、用户行为及市场特征

TechubNews

加密市场

一键部署 Dify + MCP Server,高效开发 AI 智能体应用

阿里巴巴云原生

[方法讨论]手机号码批量导入手机通讯录,导入苹果iphone通讯录华为手机小米手机等安卓手机

一码平川

本周六,龙蜥社区邀您共赴第三届 eBPF 开发者大会

OpenAnolis小助手

操作系统 龙蜥社区 eBPF开发者大会

出版社题库管理系统的技术难点

北京木奇移动技术有限公司

软件外包公司 出版社 题库系统开发

行业热点丨为什么AI驱动工程对汽车设计和轻量化至关重要?

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

欢迎 Apache SeaTunnel 新晋 Committer 王超

白鲸开源

超实用!用FunctionCall实现快递AI助手

王磊

云智赋能,绘就农业强国新图景!

天翼云开发者社区

智慧农业 数字孪生 农业数字化

广告营销行业使用堡垒机的场景简单聊聊

行云管家

网络安全 信息安全

面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi_AI&大模型_褚杏娟_InfoQ精选文章