AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:004173

评论

发布
暂无评论
发现更多内容

SvelteKit 最新中文文档教程(23)—— CLI 使用指南

冴羽

前端 前端框架 React Svelte SvelteKit

AI智上 | 数智预算:一级央企集中化预算应用领先实践

用友智能财务

CST干货:移动电子设备的射频干扰和接收灵敏度分析

思茂信息

cst CST软件 CST Studio Suite

VMware ESXi 8.0U3e macOS Unlocker & OEM BIOS Lenovo (联想) 定制版

sysin

esxi

Omnissa ThinApp 2503 - 应用虚拟化软件

sysin

horizon

Omnissa App Volumes 4, version 2503 - 实时应用程序交付系统

sysin

horizon

贝尔金在范围一和范围二排放中实现碳中和

财见

深度解析!淘宝商品详情 API 接口的高效调用与实战应用

tbapi

淘宝数据采集 淘宝API 天猫商品详情接口 淘宝商品详情API 淘宝数据分析

不用写代码!2个小时,我自己搭了一套进销存系统,业务效率翻倍!

中烟创新

与地球和鸣:华为音乐以空间音频为桥连接自然之声

最新动态

Easysearch Rollup 相比 OpenSearch Rollup 的优势分析

极限实验室

Rollup Performance easysearch OpenSearch

寻找AI大模型时代的存力破壁人:华为的行与思

脑极体

软件

五一前再带大家卷一波Go高质量面试题

王中阳Go

Go

电竞新时代:ToDesk/网易云/START三大云游戏平台深度横评,谁是真王者?

小喵子

云计算 云电脑 ToDesk 云电竞 网易云游戏电脑

Omnissa Dynamic Environment Manager 2503 - 个性化动态 Windows 桌面环境管理

sysin

horizon

手把手教你酒店LED显示屏该怎么选!

Dylan

LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家 户内led显示屏

哈佛最新研究:比特币挖矿造成环境污染,190万人受影响

PowerVerse

比特币 挖矿

docker镜像仓库

不在线第一只蜗牛

Docker

Omnissa Horizon Windows OS Optimization Tool 2503 - Windows 系统映像优化工具

sysin

horizon

审计在等保测评中的重要性

黑龙江陆陆信息测评部

北京邮电大学鲲鹏昇腾科教创新孵化中心成立 为ICT创新突破再“聚能赋力”

极客天地

人工智能 (AI) 技术在英语教育中的应用

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术应用

APSEZ收购NQXT Australia

财见

人工智能与预测性维护:AI如何帮助企业降低设备故障风险?

天津汇柏科技有限公司

人工智能 预测性维护

一文读懂天猫商品详情 API 接口:功能、调用与实战攻略

tbapi

天猫商品详情接口 天猫API 天猫商品数据采集 天猫数据采集

得物增长兑换商城的构架演进

得物技术

#算法 游戏架构

AI狂飙时代,我们测试工程师会被"优化"吗?

测试人

人工智能

AI 教育软件的开发

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术外包公司

AI英语能力评估APP的核心功能

北京木奇移动技术有限公司

AI教育 软件外包公司 AI技术应用

企业AI转型遇算力瓶颈?苏州TOP3机房服务器托管方案实测报告

苏州服务器托管

苏州服务器托管 苏州IDC

大语言模型助力 Support Case 分析,提升云服务效率

亚马逊云科技 (Amazon Web Services)

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章