大语言模型综合能力测评报告 2023_AI&大模型_InfoQ研究中心

大语言模型综合能力测评报告 2023

发布于：2023-05-29 10:41

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

查看更多 

下载此书

研究背景

2022 年年末以来，人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以 ChatGPT 引领的大模型产品发展日新月异，有预测数据显示，到 2030 年，AIGC 的市场规模或将超过万亿人民币。2023 年国内主要厂商也相继推出自研的大语言模型产品，另外国内也推出了大量的大语言模型应用，逐步构建起基于中文语言特色的大语言模型生态。

InfoQ 研究中心本次针对大语言模型产品的研发要素、大语言模型产品的核心特征进行研究，并选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度，拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私 12 个细分维度，分别对 ChatGPT、Claude、Sage、天工 3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B 进行了超过 3000+ 道题的评测。另外，本次研究特别关注了技术视角中大模型产品的编程能力，提高了问题的权重和比例；同时也专门设置了关于中文语境的特色测试题目，如方言测试、中文特色推理、对对联等题目。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知，以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

研究结论

未来， InfoQ 研究中心还将继续持续关注大模型领域的持续发展，也欢迎各位行业内的专家就本报告的内容进行交流和讨论。下半年， InfoQ 研究中心还将推出关于大模型应用的研究报告，欢迎正在该领域耕耘的厂商报名参与案例的制作和报告的研发工作。

评论 (5 条评论)

发布

Geek_b78719

sage是个什么？哪里可以用到？有地址吗？我只查到一个相同图标的crm公司。

2023-12-24 17:42 · 浙江

 0 回复

Ian

下载

2023-06-08 19:07 · 北京

 0 回复

PlutoOfCharon

文心一言还是有点东西的

2023-06-04 12:19 · 陕西

 1 回复

Geek_760dac

能分享小部分题库demo看看吗？

2023-05-31 15:06 · 上海

 0 回复

张传扬

题库有没有

2023-05-31 21:08 · 湖北

 0 回复

没有更多评论了

创作场景

大语言模型综合能力测评报告 2023

作者：InfoQ研究中心

研究背景

研究结论

目录

评论 (5 条评论)

订阅

Vue 框架提升加载速度的优化思路

商密大会传捷报｜海泰方圆喜获首届“熵密杯”密码应用安全竞赛优胜奖

低代码没有存在感？看看最新的赛道战况！

软件测试/测试开发丨Python 常用第三方库 pymysql

关于 LLM 和图数据库、知识图谱的那些事

Typora for Mac(Markdown文本编辑器) 1.6.7中文版

智能化推送系统——APP出海营销的好帮手

生成式AI助力企业高效创新

使用 Docker 部署 etcd、启用身份验证

Web和云开发，Rust会起飞？

LeetCode题解：2625. 扁平化嵌套数组，递归

一文了解Vue的优点，低代码平台的前端框架采用Vue的好处有哪些？

Microsoft Office 2019 for Mac中文正式版下载v16.76

来聊聊托管服务提供商（MSP）安全

生成式AI助力小型企业发展

4 招搞定 Java List 排序

小灯塔系列-中小企业数字化转型系列研究——电子签名测评报告

一文吃透低代码开发平台

重新定义物化视图，你必须拥有的极速湖仓神器！

Java如何检查文件是目录还是文件？

IPQ5018|Unlocking Affordable WiFi 6: The Ultimate Solution

如何配置Apple推送证书 push证书

生成式AI：文本智能的未来发展方向

2023-08-16：用go语言如何解决进击的骑士算法问题呢？

阿里云故障洞察提效 50%，全栈可观测建设有哪些技术要点？

版本发布｜Orillusion 0.6.7版本发布啦!

哪些无用敏捷指标正在破坏敏捷转型？

活动预告｜诚邀您参加HICOOL2023全球创业者峰会澜舟科技产品发布会

在 Dify 轻松调用顶尖开源与国产模型，解锁不同模型的潜力

LeetCode题解：2631. 分组

摆脱 OpenAI 依赖，8 分钟教你用开源生态构建全栈 AI 应用

创作场景

大语言模型综合能力测评报告 2023

作者：InfoQ研究中心

研究背景

研究结论

目录

评论 (5 条评论)

推荐阅读

订阅

大厂实战PPT下载