写点什么

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越 80% 人类选手,推理性能超 Llama3-70B

  • 2024-05-06
    北京
  • 本文字数:2153 字

    阅读完需:约 7 分钟

大小:1.08M时长:06:16
面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

在 4 月 18 日 Llama3 发布前两天,面壁智能低调开源了大模型 Eurux-8x22B。据悉,该模型在代码和数学等体现大模型核心素质的复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称“理科状元”。

 

除了开源时间早于 LlaMa3,Eurux-8x22B 的激活参数仅有 39B,推理速度更快,目前支持 64k 上下文,相比之下 Llama3-70B 的上下文大小为 8K。

 


此外,Eurux-8x22B 由 Mistral-8x22B 对齐而来,综合性能不输 Llama3-70B。



Eurux-8x22B 模型和对齐数据,全家桶开源:

 

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

 

LeetCode 周赛超越 80%的人类选手

 

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。根据测评,Eurux-8x22B 在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

 


具体而言,Eurux-8x22B 在 LeetCode (180 道 LeetCode 编程真题)和 TheoremQA(美国大学水准的 STEM 题目)这两个具有挑战性的基准测试中,超过现有开源模型。

 

那么开源大模型“理科状元”Eurux-8x22B 在实际应用中表现如何呢?

 

代码能力方面,面壁智能让其参加了近期的一场 LeetCode 周赛,这是一个检验人类程序员编程能力的真实竞技场。

 

结果显示,Eurux-8x22B 的 Python 编程能力非常优秀,成功解决了四道算法题中的三道,其综合排名超越了 80%的人类参赛选手,可以初步通过互联网大厂的程序员编程面试。下面是周赛中 Eurux-8x22B 对一道中等难度算法题的真实解答:




除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。

 

例如,给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到了正确答案。

 


再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确解答。



接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下:



高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误:



(注:Eurux-8x22B 没有针对中文语料进行额外的微调和对齐。)

 

大模型“上分神器”

 

面壁智能是国内极少数兼具大模型算法与 infra 能力的团队:匹配大模型作为系统工程的本质要求,打造了一条从数据原材料、到模型制作过程中训练与调校工艺环环相扣的全流程高效模型生产线,被戏称为“大模型界最强 Buff 厂”。

 

本次 Eurux-8x22B 更快、更长、理科更好的全方位惊艳成绩,即来自面壁 Ultra 对齐技术(Ultra Series)更新:新增了大规模、高质量对齐数据集 UltraInteract。

 

UltraInteract 是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对,共有五十万(条)左右数据。而相比之下,LLaMA 3-70B 模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。

 

面壁智能团队是如何构建高质量的对齐数据?

 

  • 严格质量控制和筛选。首先,面壁从多个开源数据集中抽样出难度较高、考察多样推理能力的 86k 复杂推理问题,并使用多个模型来采样答案。通过自动化格式检查和人工质量抽查结合的方式保证了答案格式的一致性和内容的正确性。

 

  • 逐步推理。对于每条指令,模型都会按照思维链(CoT)格式进行逐步推理(如下图①),生成格式统一但模式多样的推理过程。

 

  • 多轮交互。在模型给出推理过程之后,会自动与答案对比确定推理过程是否正确(如下图②),如果不正确,UltraInteract 会使用另一个批评模型(如下图③)指出错误并给出改进建议,生成新的逐步推理(如下图④),再与策略模型进行多轮交互(如下图⑤⑥),直到答案正确或达到轮数上限为止。这一步有助于模型学会反思和改错能力,在实际表现中让其可以更好地和人进行多轮交互问答。

 


图注:UltraInteract 两轮交互的过程

 

  • 首创偏好树结构。为了深入探究偏好学习在复杂推理中的作用,UltraInteract 还为每个问题都构建了一棵偏好树(如下图所示),其中问题作为根节点,每个回复作为一个子节点,每一轮生成两个节点(一对一错相配对)。所有正确推理对应的节点都可以用于 SFT,而配对的节点则可以用于偏好学习。

 


图注:UltraInteract(第三列)是当前唯一一个树状结构的对齐数据集

 

除了 UltraInteract 数据集的大力加持,偏好对齐也对 Eurux-8x22B 的推理性能提升有所帮助。

 

面壁智能团队发现,在推理任务中,提升正确答案的奖励值对于偏好对齐的效果十分重要,因为正确答案的空间比错误答案更有限,因此更加重要,模型在训练过程中不能偏离正确答案。然而,当前流行的 DPO 算法会使正确答案和错误答案的奖励值共同降低,因此在实验中效果不佳。面壁智能采用了另外两种偏好对齐算法 KTO 和 NCA,取得了更好的效果,能在 SFT 的基础上进一步提升模型性能。

 

此外,UltraInteract 数据集也在开源社区受到了广泛好评:

 



据悉,面壁 Ultra 对齐技术此前已经“强壮”了全球超 200 个大模型,尤其擅长提升大模型“以小博大”能力。例如,在面壁 Ultra 数据集的加持下,Zephyr-7B 以更小规模,在不少指标上超越了 LLaMA2-70B-Chat,同时帮助“小钢炮”MiniCPM-2B 取得与 Mistral-7B 一较高下的惊艳表现。

 

面壁智能表示,未来将持续开源高效大模型及其数据集,开源开放的精神最终将惠及所有人。

 

2024-05-06 14:195333

评论

发布
暂无评论
发现更多内容

“纯C”实现——扫雷游戏(递归实现展开功能)

一介凡夫

c 开源 8月月更

产品说明丨 iOS端使用 MobPush 快速集成方法

MobTech袤博科技

ios sdk MobTech袤博科技 mobpush

兆骑科创海内外高层次人才大赛平台,双创赛事活动举办

兆骑科创凤阁

聊聊阻容降压原理 和 实际使用的电路

矜辰所致

电路设计 8月月更

焱融科技入选“2022 中关村国际前沿科技创新大赛”大数据与云计算领域 TOP10

焱融科技

文件存储 分布式文件存储 获奖

和鲸科技创始人范向伟:大部分数据智能项目都面临着两个挑战

ModelWhale

工作流 数字化转型 数据智能 协同效应 8月月更

Spring-boot项目练习笔记(一)JS处理Long型数据精度丢失问题

赵四司机

Java web spring-boot 8月月更

拿捏了!火爆GitHub的字节内部1213页“数据结构与算法”面试手册

冉然学Java

Java 数据结构 面试 算法 构架

Redis为什么这么快?

京东科技开发者

数据库 消息队列 redis'

权威发布! 开发人员需要关注的11种顶级恶意软件

SEAL安全

网络安全 软件安全 恶意软件 软件供应链安全

Kubernetes Crossplane VCluster构建新集群

CTO技术共享

开源 签约计划第三季 8月月更

案例复现,带你分析Priority Blocking Queue比较器异常导致的NPE问题

华为云开发者联盟

后端 开发

leetcode 23. Merge k Sorted Lists 合并K个升序链表(困难)

okokabcd

LeetCode 数据结构与算法 栈和队列

HADOOP学习笔记之HDFS

薛定谔的猫

hadoop hdfs

易观分析:2022年Q2中国跨境进口零售电商市场规模为1171.0亿元

易观分析

报告 跨境进口 零售电商市场

Kubernetes Ingress 控制器讲解

CTO技术共享

开源 签约计划第三季 8月月更

直播短视频源码——直播与短视频之间的区别如何解决

开源直播系统源码

软件开发 短视频源码 直播系统源码 直播源码 一对一视频聊天系统

头脑风暴:一和零

HelloWorld杰少

算法 LeetCode 数据结构, 8月月更

兆骑科创创投平台,创赛承办,投融资对接,项目落地孵化

兆骑科创凤阁

有关分库分表ShardingSphere-JDBC,这是我见过整理的最全的笔记了

Java全栈架构师

Java 数据库 程序员 面试 JDBC

Redis 介绍

武师叔

8月月更

数读海南数字经济 | 2022海南数字经济发展指数发布

易观分析

数字经济 经济 海南

Spring-boot项目练习笔记(二)MybatisPlus实现公共字段自动填充

赵四司机

Java web MyBatisPlus 8月月更

技术分享| 视频传输Simulcast与Svc

anyRTC开发者

音视频 Simulcast Svc 视频传输

零基础web前端学习靠谱吗

小谷哥

免费云管平台有吗?咨询电话多少?

行云管家

云计算 企业上云 云管平台

StarRocks 在 58 集团全业务线的深度实践

StarRocks

数据库

什么密码,永远无法被黑客攻破?

Authing

学大数据需要具备什么基础知识点?

小谷哥

地址标准化服务AI深度学习模型推理优化实践

阿里云大数据AI技术

深度学习

大数据开发课程靠谱吗?

小谷哥

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B_AI&大模型_褚杏娟_InfoQ精选文章