写点什么

谷歌 AI 开发深度学习模型 Minerva,解决数学定量推理问题

作者:Reza Rahimi

  • 2022-07-30
  • 本文字数:1052 字

    阅读完需:约 3 分钟

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题

谷歌 AI 开发了一种叫作Minerva的深度学习语言模型,可以通过逐步推理解决数学定量问题。

 

在最近发表的与 Minerva 相关的论文中,研究人员解释了这种深度学习模型的开发情况。他们基于包含定量推理的大型训练数据集训练深度学习模型,实现了最先进的解决方案。最终的模型 Minerva 可以解决 STEM 推理任务中的定量数学问题。

 

Minerva 使用自然语言处理和数学符号处理技术来解析问题。它召回相关的公式、常数和涉及数值计算的逐步解决方案。它生成包含符号操作和数值计算的解决方案,不需要依赖计算器来得到最终答案。它用不同的分配概率为问题生成不同的答案,并通过多数投票来选择最终答案。下图是 Minerva 针对一个定量数学问题的输出示例。



Minerva针对一个定量数学问题的输出示例

 

Minerva 构建在Pathways语言模型(PaLM,5400 亿个参数,密集激活,转换器语言模型)之上,具有更多的数学数据集,如 arXiv、包含 LaTeX 和 MathJax 的文本或其他数学格式。为了在符号数据上训练模型,训练数据集中保留了数学符号表示。这个过程如下图所示。



为训练Minerva,保留了符号数学表达式

 

为了对 Minerva 的性能进行基准测试,使用了从小学水平到研究生水平的 STEM 基准。研究人员使用的数据集包括 MATH(高中数学竞赛水平的问题)、MMLU-STEM(大规模多任务语言理解基准,涵盖高中和大学水平的工程、化学、数学和物理问题)和 GSM8k(有天赋的中学生可以解决的小学数学问题,涉及基本的算术运算)。Minerva 在 MATH 和 MMLU-STEM 上表现出了显著的性能,如下图所示。

 


Minerva的性能表现

 

Minerva 的一个局限性是模型的答案不能进行自动评估。正如博文中所描述的:

 

我们的定量推理方法不是以规范数学为基础。Minerva 使用自然语言和 LaTeX 数学表达式解析问题并生成答案,没有显式的底层数学结构。这种方法有一个重要的局限性,即模型的答案不能进行自动验证。即使最终答案是已知的,并且可以被验证,模型也能通过不正确的推理步骤得到正确的最终答案,这是无法自动检测的。这个局限性在规范的定理证明方法中不存在(参见CoqIsabelleHOLLeanMetamathMizar)。

 

为了推广量化推理的 NLP 模型,谷歌 AI 分享了一个交互式示例集合,用于帮助用户探索 Minerva 的能力。

 

将自然语言处理和深度学习应用于数学推理是一个具有挑战性的研究领域。在这个领域有一些其他带有源代码的论文,如图到树的学习用于数学应用题的目标驱动树结构神经模型这里也有一些该领域的其他带有源代码的论文,供读者进一步阅读。

 

原文链接

Google AI Developed a Language Model to Solve Quantitative Reasoning Problems

2022-07-30 08:004023

评论

发布
暂无评论
发现更多内容

百度沈抖:所有产品将基于大模型重构,要做好三大准备

科技热闻

请解释如何实现算法 PERMUTE-BY-SORTING,以处理两个或更多优先级相同的情形。也就是说,即使有两个或更多优先级相同,你的算法也应该产生一个均匀随机排列。

福大大架构师每日一题

福大大 ChatGPT

STM32读取BH1750光照强度数据打印到串口

DS小龙哥

6 月 优质更文活动

pytorch实现前馈神经网络实验(手动实现)

Studying_swz

6 月 优质更文活动

Sentinel 是如何实现资源指标数据统计的

互联网架构师小马

Java sentinel

C语言编程—强制类型转换

芯动大师

C语言 强制类型转换 6 月 优质更文活动

Java SPI 在 Sentinel 中是如何应用的?

互联网架构师小马

Java sentinel spi

微服务高并发:流量效果控制,经典限流算法

互联网架构师小马

【坚果派】Flutter环境配置(Mac版)

坚果

flutter 坚果派 6 月 优质更文活动

2023-06-09:什么是Redis事务?原理是什么?

福大大架构师每日一题

redis 福大大

【零售电商系列】走进亚马逊(三)

小诚信驿站

6 月 优质更文活动

kubernetes 必知必会 1 - 初识

itschenxiang

android项目问题总结

Studying_swz

6 月 优质更文活动

责任链模式在 Sentinel 中的应用

互联网架构师小马

精进:如何跳出疯狂的忙碌

老张

个人提升 如何解决问题 思维逻辑

INFINI Labs 产品更新 | Easysearch 新增跨集群复制 (CCR)、支持快照生命周期管理 (SLM) 功能等

极限实验室

搜索引擎 console Gateway agent easysearch

MegaOS重磅亮相新华三领航者峰会,助推百行百业全数字化

新消费日报

Nautilus Chain全球行分享会,上海站圆满举办

鳄鱼视界

阿里内部人手一份的Spring Cloud Alibaba手册

小小怪下士

Java 程序员 SpringCloud springcloudAlibaba

Solaris网络从9家知名投资机构获得5000万美元融资

股市老人

Redis数据结构:高频面试题及解析

小万哥

nosql redis 面试 后端 中间件

虚拟机安装Ubuntu16并安装Ros(Kinetic)

Studying_swz

6 月 优质更文活动

ChatGPT教我用200行代码写一个简版Vue框架 - OpenTiny

Kagol

vue.js 前端 ChatGPT

限流功能实现原理

互联网架构师小马

H5 单双引号问题

Andy

Nautilus Chain全球行分享会,上海站圆满举办

股市老人

Nop平台为什么是一个独一无二的开源软件开发平台

canonical

开源 低代码 开发平台

Sentinel的整体工作流程分析

互联网架构师小马

谷歌AI开发深度学习模型Minerva,解决数学定量推理问题_AI&大模型_InfoQ精选文章