QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:003914

评论

发布
暂无评论
发现更多内容

17 K8S之容器资源需求与资源限制

穿过生命散发芬芳

k8s 11月日更

如何在浏览器 console 控制台中播放视频?

CRMEB

自定义View:多点触摸画笔的实现

Changing Lin

11月日更

单机训练6000万类视觉分类模型,飞桨大规模分类库PLSC做到了

百度开发者中心

飞桨 视觉分类 plsc

盲盒开发盲盒app开发

盲盒开发源码搭建小程序app

盲盒开发

盲盒小程序开发源码搭建

.NET6 内置IOC容器

面向对象的猫

.net core .net6

基于Guava API实现异步通知和事件回调

Tom弹架构

Java 架构 设计模式

以用户体验为抓手,助力券商数字化转型

博睿数据

盲盒开发一番赏盲芒趣蛋趣小程序app开发

如何用Camtasia为“微课”视频添加光标效果?

淋雨

Camtasia

支撑长安链运行,区块链算力平台是什么?

CECBC

盲盒开发盲盒小程序系统开发

盲盒开发盲盒小程序开发

盲盒小程序开发盲盒源码搭建

初识 .NET6

面向对象的猫

.net core .net6

Flink CDC 2.1 正式发布,稳定性大幅提升,新增 Oracle,MongoDB 支持

Apache Flink

大数据 flink 后端 实时计算 CDC

社科院专家认为元宇宙是双刃剑,将带来五大巨变

CECBC

公司应该监控员工的上网行为吗?

石云升

职场经验 11月日更

【强势推出】专家带你玩,秒懂数据库!官方证书、万元奖品带回家!

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库

怎么自学Python,大概要多久?

老表

Python 11月日更 编程入门 思路 如何解决问题

盲盒app开发

进击的Java(九)

ES_her0

11月日更

选择 Pulsar 而不是 Kafka 的 7 大理由

Apache Pulsar

kafka 架构 云原生 中间件 Apache Pulsar

盲盒开发小程序app开发源码搭建

Android C++系列:Linux文件IO操作(一)

轻口味

c++ android jni 11月日更

盲盒h5小程序app系统开发

ARP欺骗与防范

喀拉峻

网络安全 安全 信息安全

Python Qt GUI设计:多线程中信号与槽的使用(基础篇—9)

不脱发的程序猿

Python qt PyQt GUI设计 多线程中信号与槽的使用

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章