AI 时代下组织如何快速变革?如何提升全员 AI 技能?戳> 了解详情
写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:003980

评论

发布
暂无评论
发现更多内容

生产环境全链路压测建设历程 20:某快递 A 股上市公司的生产压测案例之彩蛋

数列科技杨德华

全链路压测 七日更

你不得不知道的反射(非常重要)

安琪拉的博客

Java 反射 java反射

到底什么是 CDN

转山转水

CDN

垃圾回收你懂,Java垃圾回收你懂吗?

华为云开发者联盟

Java 虚拟机 存储 对象 垃圾回收

Thread 线程,状态转换、方法使用、原理分析

小傅哥

线程 小傅哥 Thread 七日更 状态流转

思考-国际化系统表结构设计

BerryMew

架构师训练营大作业1

邓昀垚

回溯和动态规划解决每次移动一步最终回到原地算法、富兰克林成功要素和狗熊掰棒子、swift多线程编程入门operation John 易筋 ARTS 打卡 Week 31

John(易筋)

ARTS 打卡计划 富兰克林成功要素 狗熊掰棒子 动态规划解决移动回到原地 swift operation

工具之书:《账簿与权力》与 GNUCash

lidaobing

GNUCash 28天写作

分布式缓存架构设计和一致性HASH

我们新四军不拿群众一针一线

注册中心Eureka源码解析

洛神灬殇

架构师训练营 1 期 - 第十三周 - 数据应用 2

三板斧

极客大学架构师训练营

如何解决MySQL主从数据库没有同步的问题?

冰河

MySQL 高可用 主从复制

一个HashMap能跟面试官扯上半个小时

安琪拉的博客

Java HashMap底层原理

TypeScript | 第五章:高级类型

梁龙先森

typescript 大前端 七日更

刘华:戏说Docker和K8s,一文让你成为懂王

刘华Kenneth

Docker 云计算 Kubernetes DevOps k8s

第十周作业

Jack

写技术文章给我带来什么好处?

小林coding

程序人生

今天,我们为什么应该读懂华为人工智能?

脑极体

笔记|怎样成为高效学习的人

熊斌

学习 个人成长 成长笔记 七日更

第十三周 数据应用2 总结

三板斧

极客大学架构师训练营

ModelArts黑科技揭秘|模型智能评估、诊断,让模型来个“体检

华为云开发者联盟

AI 模型 华为云 modelarts 智能诊断

Multi-Architecture镜像制作指南已到,请查收!

华为云开发者联盟

Docker Kubernetes 容器 镜像 Multi-Architecture

bit位操作及其算法应用

Skysper

算法 位运算

华为大佬亲自手码Dubbo服务暴露源码解析!这次够清楚了吧

比伯

Java 编程 架构 程序人生 计算机

skynet源码分析之网络层—Lua层

赖猫

c++ lua skynet

架构师训练营第十周作业

丁乐洪

架构师训练营 第十周作业

文江

瞬间起飞!腾讯大神纯手撸“架构师成手册”网友看完直呼NB!

比伯

Java 编程 架构 面试 计算机

科技抗疫,少年可期,为这群有AI的天使开发者疯狂打call

华为云开发者联盟

人工智能 华为云 modelarts 医疗AI 对象存储服务OBS

加快你ROS安装的一篇文章

良知犹存

ROS

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章