写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:004134

评论

发布
暂无评论
发现更多内容

OpenKruise 2021 规划曝光:More than workloads

阿里巴巴云原生

阿里云 开源 容器 云原生 调度器

Flink SQL 实战:双流 join 场景应用

Apache Flink

flink 流计算

我参与阿里巴巴 ASoC-Seata 的一些感悟

阿里巴巴云原生

阿里云 开发者 云原生 感悟 seata

7 天开发后台系统技术小结

老魚

程序员 全栈 建站

智慧公安防控管理平台搭建,重点人员管控系统解决方案

t13823115967

智慧公安

LINUX SHELL脚本攻略

田维常

敏捷团队的质量保障赋能

BY林子

质量保障 质量赋能 敏捷测试

电商平台如何激发内容生态

马踏飞机747

内容 内容分发网络 电商

四年三次获奖,PostgreSQL再度荣获“年度数据库”桂冠!

PostgreSQLChina

数据库 postgresql 开源

如何防止短信验证码接口被恶意调用攻击?

香芋味的猫丶

短信 短信防刷 接口安全 验证码

Python的GIL

yunson

Python GIL

区块链app开发要多少钱?如何根据项目需求了解价格?

程序员修炼之路:你该知道的 7 个必经阶段

阿里巴巴云原生

阿里云 程序员 云原生 自我思考 成长笔记

国外低代码平台趟过那些坑,对国内低代码企业有哪些启示?

DT极客

有没有听说过通达快递?

escray

极客时间 极客大学 课程作业 大作业 架构师训练营第 1 期

区块链数字货币交易所开发的简介

数字货币交易所开发的功能与特点

对冲基金的子基金模式vs集中管理

9527

2020年11期券商App行情刷新及交易体验评测报告

博睿数据

APM 数据 AIOPS 证券

测开之函数进阶· 第7篇《装饰器装饰类,通用装饰器,有啥区别呢?》

清菡软件测试

测试

区块链钱包开发的功能与特点

获奖名单|七日更挑战成功!

InfoQ写作社区官方

奖品 七日更 热门活动

软件测试--中间件介绍

测试人生路

软件测试 中间件

Linux进程知识干货|收藏

赖猫

c++ Linux 后台开发 运维

云原生2.0时代,华为云DevOps立体运维实践

华为云开发者联盟

DevOps 运维 云原生 华为云

千里公路建设尽收眼底,3D可视化监测管养运,领导都惊呆了

一只数据鲸鱼

物联网 数据可视化 3D可视化 公路建设 智慧交通

漫画 | 带你领略前端发展史的江湖恩怨情仇

苏南

程序员 大前端 漫画 时代发展

智慧社区管理平台建设,智慧平安小区整体解决方案

t13823115967

智慧社区安防系统平台开发

这道面试题,出错率90%

田维常

面试

纵观 ActiveX 平台的兴衰史,看开发控件的技术演变

葡萄城技术团队

SpreadJS activex

深度解析!滴滴内部开源Spring IoC和AOP源码小册

Java架构追梦

Java spring 架构 aop ioc

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章