NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-07-30 08:003368

评论

发布
暂无评论
发现更多内容

Baklib帮助中心|如何设置好客户服务帮助您的客户?

Baklib

项目重构演进之路

杨充

Zebec流支付生态,开启多链布局的“两手准备”

股市老人

Baklib|如何做好知识库网页?

Baklib

防患未然 | AIRIOT城市管廊智能运维解决方案

AIRIOT

低代码 物联网 智慧管廊

API关键技术-日志审计技术

阿泽🧸

日志审计 11月月更

Jan Ozer:高清直播互动场景下的硬编码如何选型?

声网

人工智能 编码 视频

母亲斗情敌,羞得儿子无地容!一瓶“醉三皇”,圆了多少孝亲梦!

联营汇聚

CentOS7安装MySQL-5.7.36

蜗牛也是牛

web服务器

我叫于豆豆吖.

11月月更

如何搭建 SaaS 产品的客户服务体系

产品海豚湾

SaaS平台 B端产品 SaaS 产品 11月月更 客户成功

【愚公系列】2022年11月 微信小程序-页面间通信

愚公搬代码

11月月更

Linux 忘记密码解决方法

智趣匠

Linux线程 11月月更 Linux系统

【web 开发基础】PHP中的伪类型参数的函数 (31)

迷彩

函数 web开发基础 11月月更 伪类型参数函数 伪类型

【web 开发基础】PHP中的引用参数的函数 (32)

迷彩

web开发基础 11月月更 引用传递 引用参数函数 值传递

一文熟悉 Go 的基础语法和基本数据类型

陈明勇

Go golang 11月月更

寒冬之下,年销售增速不降反增,这家国企做对了什么?

用友BIP

什么是CI/CD

穿过生命散发芬芳

CI/CD 11月月更

【活动回顾】Apps Everywhere 上海站圆满结束

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习

架构实战营模块 6 作业

陌生流云

架构实战营

软件测试之 Contract Testing

QE_LAB

契约测试 测试技术

OpenSergo & ShardingSphere 社区共建微服务视角的数据库治理标准

阿里巴巴云原生

阿里云 云原生 开源微服务 OpenSergo

C++特殊类的设计

可口也可樂

c++ 11月月更 特殊类的设计

helm部署mysql

程序员欣宸

Helm 11月月更 kuernetes

2022-11-23: 分数排名。输出结果和表的sql如下。请写出输出结果的sql语句? +-------+------+ | score | rank | +-------+------+ | 4.

福大大架构师每日一题

数据库 福大大

Zebec开启多链布局,流支付生态持续扩张

EOSdreamer111

传统客服中心向“互联网+”转型的关键点——帮助中心

Baklib

视效剧情口碑双爆棚!Netflix 现象级剧集《怪奇物语》第四季神级视效专访大揭秘!

Renderbus瑞云渲染农场

Renderbus瑞云渲染 CG动画电影 CG特效制作

第一章 TCP/IP协议

我叫于豆豆吖.

11月月更

第二章 TCP/IP-IOS七层模型

我叫于豆豆吖.

11月月更

week6作业 - 拆分电商系统为微服务

in9

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章