大语言模型综合能力测评报告 2023

大语言模型综合能力测评报告 2023

发布于:2023-05-29 10:41
InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外,本次研究特别关注了技术视角中大模型产品的编程能力,同时也专门设置了关于中文语境的特色测试题目, 如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。
查看更多
下载此书

研究背景

2022 年年末以来,人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以 ChatGPT 引领的大模型产品发展日新月异,有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。2023 年国内主要厂商也相继推出自研的大语言模型产品,另外国内也推出了大量的大语言模型应用,逐步构建起基于中文语言特色的大语言模型生态。



InfoQ 研究中心本次针对大语言模型产品的研发要素、大语言模型产品的核心特征进行研究, 并选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度,拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私 12 个细分维度,分别对 ChatGPT、Claude、Sage、天工 3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B 进行了超过 3000+ 道题的评测。另外,本次研究特别关注了技术视角中大模型产品的编程能力,提高了问题的权重和比例;同时也专门设置了关于中文语境的特色测试题目, 如方言测试、中文特色推理、对对联等题目。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。

研究结论

目录

  • 大语言模型发展背景

  • 大语言模型产品核心能力解读

  • 大语言模型产品测评结果和特征

  • 大语言模型产品未来发展展望


未来, InfoQ 研究中心还将继续持续关注大模型领域的持续发展,也欢迎各位行业内的专家就本报告的内容进行交流和讨论。下半年, InfoQ 研究中心还将推出关于大模型应用的研究报告, 欢迎正在该领域耕耘的厂商报名参与案例的制作和报告的研发工作。


评论 (4 条评论)

发布
用户头像
下载
2023-06-08 19:07 · 北京
回复
用户头像
文心一言还是有点东西的
2023-06-04 12:19 · 陕西
回复
用户头像
能分享小部分题库demo看看吗?
2023-05-31 15:06 · 上海
回复
题库有没有
2023-05-31 21:08 · 湖北
回复
没有更多评论了