写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:004332

评论

发布
暂无评论
发现更多内容

模块九:毕业设计

黄秀明

「架构实战营」

自己动手写Docker系列 -- 5.1实现容器的后台运行

Docker

掌握《网络》,见微才能知著

蔡农曰

TCP https 网络 HTTP TCP/IP

一个用于学习KVM的迷你虚拟机

ScratchLab

虚拟机 虚拟化 kvm VT-x

【面试-经验之谈】面霸是如何养成的,他的路子真的野

测试猿温大大

面试 涨薪 测试工程师

DataFrame转字典、列表、元组操作汇总,学生会面试题选择题

程序媛可鸥

Python 程序员 面试

腾讯一面:说一说 MySQL 中索引的底层原理

老周聊架构

MySQL 3月月更

bigdata作业2

Pyel

10 行 Python 代码自动清理电脑内重复文件,解放双手!

程序媛可鸥

Python 程序员 面试

一个LabVIEW控件,生成模拟波形效果

不脱发的程序猿

数据可视化 LabVIEW 生成模拟波形效果

从简单代码入手,分析线程池原理

架构 线程池 池化思想

云上业务配置选型的一些小Tips

穿过生命散发芬芳

3月月更

Ubuntu18.04下QT开发Android无法连接设备问题解决

DS小龙哥

3月月更

面试突击32:为什么创建线程池一定要用ThreadPoolExecutor?

王磊

java面试

手把手教你用 Vue 搭建带预览的「上传图片」管理后台

蒋川

Vue vue admin

2022 年顶级机器学习算法和 Python 库,【原理+实战+视频+源码】

程序媛可鸥

Python 程序员 面试

eNSP检测不到网卡信息——WinPacp,附带学习经验

程序媛可鸥

Python 程序员 面试

2万字详解测试金字塔

俞凡

最佳实践 测试 研发效能

小程序电商业务微服务架构及微服务框架模式

「架构实战营」

在 Node.js 中使用 Yaml 编写API文档

devpoint

node.js API yaml swagger 3月月更

40行不到的Python代码实现超燃动态排序图,成为一名合格Python架构师

程序媛可鸥

Python 程序员 面试

LabVIEW实现CRC校验

不脱发的程序猿

LabVIEW CRC校验

ICT的圣杯(三):产业融合的技术乐章

脑极体

尤达 DDD 领域驱动设计思想 第四章作业(使用事件风暴建模法对SmartRM系统的交易域重新建模)

代廉洁

尤达DDD领域驱动设计思想

用 Go 语言打造一个全新的 kv 存储引擎

roseduan

Go KV存储引擎

4 行代码实现批量、快速安装 Python 第三方库,价值2000元的学习资源泄露

程序媛可鸥

Python 程序员 面试

谭中意:玩魔兽、爱做饭、看毛选,而我是个开源人

腾源会

开源 腾源会

聊一聊C语言位域/位段

不脱发的程序猿

C语言 嵌入式开发 位域/位段

《不敢止步》--读书笔记

stars

高并发架构实战课 期中测试:某达架构设计说明书

👽

李智慧 高并发架构实战课 李智慧

工作想法小计(5):3/7 - 3/18

非晓为骁

个人成长 细节 工作想法

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章