写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:004259

评论

发布
暂无评论
发现更多内容

易观分析:开源是隐私计算技术应用和生态构建的关键

易观分析

隐私计算 开源社区 开源技术

艾瑞:技术驱动、生态助力,移动应用行业展望“黄金十年”

极客天地

安全大讲堂 | 陈屹力:未来云原生安全能力建设将强调体系化的安全防护

腾讯安全云鼎实验室

云原生 安全大讲堂 云原生安全

天翼云云硬盘的磁盘模式及共享盘

天翼云开发者社区

云存储 云硬盘

物理裸机配置如何转换为天翼云云主机配置

天翼云开发者社区

云主机

天翼云RDS数据库如何修改数据库参数

天翼云开发者社区

数据库 RDS

天翼云虚拟IP地址及其在高可用集群中的应用

天翼云开发者社区

虚拟机

【OpenHarmony移植案例与原理】XTS子系统之应用兼容性测试用例开发

华为云开发者联盟

测试 OpenHarmony XTS 应用兼容性测试

预约下载 | 《Serverless 开发速查手册》全新上线

阿里巴巴云原生

Web 键盘输入法应用开发指南(10)—— 性能与原理

天择

JavaScript 浏览器 键盘 输入法 3月月更

中国科协发布 2021 开源创新榜,阿里巴巴 2 大开源社区、5 大开源项目上榜

阿里巴巴云原生

CSDN 数据库Meetup|OceanBase 技术专家讲述 SQL 的一生

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版 OceanBase社区

想让DBA瞬间崩溃,那就让他去做SQL性能优化

华为云开发者联盟

数据库 sql 遍历 存储 优化SQL

架构实战营-模块一作业

凯博无线

OpenHarmony 3.1 Beta版本关键特性解析——HiStreamer轻量级可定制的媒体管线框架大揭秘

OpenHarmony开发者

OpenHarmony HiStreamer 媒体管线框架

8家正规云南等保测评机构名单看这里!

行云管家

等保 等保测评 等保2.0 云南

华为云发布实时音视频行业加速器,为企业解决技术与商业双重难题

华为云开发者联盟

音视频 RTC 华为云 华为云实时音视频 DevRun

如何搭建B端产品帮助中心

小炮

帮助中心 B端用户

您有多点会员吗?——数据库渐进式创新助力多点推进经营大脑实践

PingCAP

Spark启动及提交流程内部核心原理剖析

编程江湖

grpc双向流究竟是什么情况?2段代码告诉你

华为云开发者联盟

gRPC RPC 消息 grpc双向流 消息序列

如何选择天翼云云硬盘

天翼云开发者社区

云硬盘

高性能的连接管理和数据路由组件,OceanBase 生态工具 ODP 详解

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版

不仅仅是一把瑞士军刀 —— Apifox的野望和不足

Liam

Java 程序员 Jmeter Postman swagger

大数据培训hive和mapreduce的区别

@零度

mapreduce hive 大数据开发

初创企业CRM系统解决方案

低代码小观

初创公司 企业微信 企业管理系统 CRM系统 客户关系管理系统

实现简易的 Vue 响应式

CRMEB

web技术分享| 快速实现一个呼叫邀请 SDK

anyRTC开发者

前端 Web 语音通话 视频通话 呼叫邀请

2022年网络运维必备软件和工具推荐

行云管家

运维 网络运维 IT运维 云管理

KubeVela: 如何用 100 行代码快速引入 AWS 最受欢迎的 50 种云资源

阿里巴巴云原生

明确生态边界的钉钉,让ToB从业者们松了口气

ToB行业头条

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章