写点什么

智源研究院 FlagEval 大模型评测平台更新 8 月榜单:新增通义千问、Llama2 等多个模型评测,评测基座模型代码生成能力

  • 2023-08-16
    北京
  • 本文字数:1277 字

    阅读完需:约 4 分钟

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力

为推动大模型在产业落地和技术创新,今年 6 月智源研究院发布了“开源商用许可语言大模型系列+开放评测平台” 两大重磅成果,打造“大模型进化流水线”。

 

FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。

 

FlagEval 大语言模型评测体系当前包含 6 大评测任务,20+评测数据集,80k+评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval 等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集,更多维度的评测数据集也在陆续集成中。

 

自 6 月 9 日上线以来,FlagEval 在短短一个月内就已收到 200+模型评测申请,并更新了首期 SFT 模型排行榜和大模型 2023 高考排行榜。在 FlagEval 8 月榜单最新榜单中,新增了通义千问、Llama2 等多个模型评测,也新增了基座模型代码生成能力评测。

 

新增多个明星开源模型评测:Llama2 / Qwen / InternLM / MPT / Falcon

 

基座模型(Base Model)榜单:

 

Qwen-7B、InternLM-7B 超越 Llama2,分列第一、第二名。

 


有监督微调模型(SFT Model)榜单:

 

InternLM-chat-7B 夺魁,刷新中英客观评测记录,悟道·天鹰 AquilaChat 排名第二;

 

Qwen-chat-7B 中英文客观评测结果欠佳,远低于其基座模型的客观评测表现;但在中文主观评测上,Qwen-chat-7B 以 75.4% 准确率排名第一,与第二名 ChatGLM2-6B(62.1%)拉开较大差距。

 

备受关注的 Llama2 基座模型 7B、13B 综合评测结果相比于第一代提升了 10%、25%;Llama2-Chat 7B、13B 英文能力突出,中文存在明显短板,中文主观评测准确率仅为 18.3%、22%,在 SFT 模型榜单上排名第三,仅次于 InternLM 和悟道·天鹰 Aquila。

 

新增针对基座模型 HumanEval 代码生成能力评测

 

近期,“代码生成能力”新晋成为大语言模型领域的热门话题,开源基座模型如 Llama2 的技术报告特别强调了“代码生成能力”作为其关键特性。 

 

基座模型强大的代码生成能力为后续的代码语料微调提供了坚实基础。因此,本期榜单引入了针对基座模型的 HumanEval 评测:

 

Pass@1 的评测结果显示,国产大模型 Qwen、InternLM 超越 Llama2-13B,分列第一、第二名。

 

Pass@100 结果显示,悟道·天鹰 Aquila-7B 的表现接近 Llama-13B,但与第二代 Llama2-13B 相比仍有一定差距。

 

HumanEval 是由 OpenAI 编写发布的代码生成评测数据集,包含 164 道人工编写的 Python 编程问题,模型针对每个单元测试问题生成 k(k=1,10,100)个代码样本,如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即 Pass@k 得分。

 


Falcon-7b HumanEval 评测结果出自 Meta Llama2 官方论文 :

 

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

 

评测说明:

在评测时,FlagEval 根据数据集的不同规模进行了自动化采样。

更多评测结果请登录官网查看:https://flageval.baai.ac.cn/

2023-08-16 18:375201
用户头像
李冬梅 加V:busulishang4668

发布了 955 篇内容, 共 551.8 次阅读, 收获喜欢 1113 次。

关注

评论

发布
暂无评论
发现更多内容

[Huggingface]系列文章(1)-认识Transformers

alexgaoyh

文本分类 文本生成 huggingface sentiment-analysis text-generation

Nautilus Chain 主网上线,创世 ZBC 质押即将开启

大瞿科技

2023-07-20:假设一共有M个车库,编号1~M,时间点从早到晚是从1~T, 一共有N个记录,每一条记录如下{a, b, c}, 表示一辆车在b时间点进入a车库,在c时间点从a车库出去, 一共有K

福大大架构师每日一题

福大大架构师每日一题

【有奖互动】开发者版本新特性,你期待哪些更新?#HDC.Together2023#

HarmonyOS开发者

HarmonyOS

AI与HPC融合,未来会朝什么方向发展 | 社区征文

瓜瓜猪

年中技术盘点

掌控MySQL并发:深度解析锁机制与并发控制

砖业洋__

表锁 MySQL并发控制 隐式锁 插入意向锁 行锁

Spring高手之路2——深入理解注解驱动配置与XML配置的融合与区别

砖业洋__

XML配置 spring框架 注解驱动配置 组件注册 组件扫描

Nautilus Chain 主网上线,创世 ZBC 质押即将开启

股市老人

第四届“先导杯”全国挑战赛正式开赛 百万奖金等你来拿

科技热闻

新兴技术对中药学的革命|社区征文

爱技术的药学生

AI AIGC 年中技术盘点

Docker 镜像的导出与导入

陈皮

Docker save load

【Linux系统】fdisk相关分区命令。

百度搜索:蓝易云

云计算 Linux 运维 服务器 fdisk

前、后端通用的可视化逻辑编排

悠闲的水

低代码 逻辑编排 低代码平台 可视化编排 可视化开发

阿里商旅账单系统架构设计实践

阿里技术

账单 阿里商旅 账单系统 账单数据

AI 改变我们的工作方式 | 社区征文

宇宙之一粟

年中技术盘点

英特尔x MAXHUB:以创新解决方案掀起“智能协作”新浪潮

E科讯

我来泼盆冷水:正面迎击AI的时代千万别被ChatGPT割了韭菜

EquatorCoco

人工智能 信息安全 ChatGPT

Unity 发布《2023 移动游戏增长与变现报告》,聚焦游戏行业高效增长策略

Geek_2d6073

AITO问界,先经沧海而后造船

脑极体

智能汽车

C语言 typedef的用法示例讲解

梦笔生花

Filter for GO

数由科技

AI绘图:艺术与科技的交融 | 社区征文

IT蜗壳-Tango

年中技术盘点

Python爬虫超详细讲解(零基础入门,老年人都看的懂)

Java随想录

Java Python

Spring高手之路1——深入理解与实现IOC依赖查找与依赖注入

砖业洋__

ioc 依赖注入 spring框架 依赖查找 IOC面试题

《中国民用航空业零代码应用与推广白皮书》正式发布

明道云

HTTP接口性能压力测试

javalover123

性能测试 压测 API 压力测试 HTTP API

性能最快的代码分析工具,Ruff 正在席卷 Python 圈!

EquatorCoco

Python 开源 框架

英特尔携钉钉及新华三以创新解决方案变革未来远程协作体验

E科讯

如何理解小程序插件?微信及支付宝官方详解

没有用户名丶

智源研究院FlagEval大模型评测平台更新8月榜单:新增通义千问、Llama2等多个模型评测,评测基座模型代码生成能力_AI 工程化_李冬梅_InfoQ精选文章