【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

DeepMind 又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

  • 2022-09-07
    北京
  • 本文字数:1437 字

    阅读完需:约 5 分钟

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模型如何得出最终答案,因此用户难以论证答案合理性、也不易发现答案中的潜在错误。


DeepMind 研究团队在最新论文《使用大型语言模型实现可信推理》(Faithful Reasoning Using Large Language Models)中解决了这个问题。论文提出一套前向链选择推理模型,能够执行忠实推理并提供有效的推理跟踪,用以提高推理质量并帮助用户检查 / 验证最终答案。



论文地址:

https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

如何利用因果逻辑原理提高推理质量?


为了突破机器学习可解释性这道难关,DeepMind 研究团队在论文中展示了如何通过因果结构反映问题的潜在逻辑结构,借此过程保证语言模型忠实执行多步推理。研究团队的方法会将多个推理步骤联系起来共同起效,其中各个步骤均会调用两套经过微调的语言模型:其一用于选择,其二用于推理,借此产生有效的推理跟踪。


该方法还会对推理轨迹空间执行定向搜索,借此提高推理质量。


论文中提出的方法基于这一基本思想:如果给定问题的潜在逻辑结构,可以通过因果结构来反映,则语言模型可以忠实执行多步推理。为了实现这个目标,DeepMind 团队开发出选择推理(SI)作为系统主干。作为一种新颖架构,其中包含两套经过微调的语言模型,一套用于选择、一套用于推理。



分步前向推理主干会将各个推理步骤拆分为两个:


1)给定一个问题,由选择模型首先从上下文中选择一组语句;

2)推理模型随后从选择中计算一个语句,预测其含义(推理)


在推理步骤结束时,该推理会被添加至上下文内。通过迭代整个选择与推理过程,模型即可产生推理轨迹,而最终推理将用于回答问题。



为了让模型能够确定何时停止推理,该团队还引入了一个两段式 halter。它会利用微调的语言模型来预测该模型能否在当前推理之下回答给定问题。如果模型无法以高置信度回答问题,则执行另一次选择推理迭代;如果 halter 的输出就是答案,则终止此过程并返回答案。假设选择推理循环持续到预先指定的迭代次数,但仍未得出答案,则系统不会直接给出最佳猜测、而是返回 “未知”。


研究人员观察到,在删除掉模型认为无法忠实回答的问题之后,模型性能得到显著提高。他们相信,这种方法有助于提高模型在以精确度(而非召回率)为优先的现实世界中的可信度与安全性。



实际效果

在这次实证研究中,该团队将自己的选择推理系统与 Proof Writer(PW)和 EntailmentBankQA(EB)数据集上的基准模型进行了比较。他们提出的模型在 PW 和 EB 上分别实现了 88.1% 和 78.1% 的最终答案准确率,大大优于基准模型。


这项工作表明 DeepMind 提出的新方法确实能在不牺牲模型性能的前提下,通过多步推理对问题做出忠实回答。虽然该研究目前只侧重于给定上下文中的多步骤推理,但该团队已经计划在未来的工作中利用检索进一步充实上下文信息。


从实际性能来看,尽管存在“只能执行可信推理”的限制,该模型的实际表现仍然非常出色。考虑到如果一项技术要想安全普及、为大众所接受,就必须能够通过审计检验,此次研究可能代表语言模型正向着可解释性迈出重要一步。


原文链接:


https://medium.com/syncedreview/deepminds-selection-inference-language-model-system-generates-humanly-interpretable-reasoning-8707817ad098


https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-09-07 14:023962
用户头像
李冬梅 加V:busulishang4668

发布了 817 篇内容, 共 387.2 次阅读, 收获喜欢 1004 次。

关注

评论

发布
暂无评论
发现更多内容

本周最火AutoGPT!GitHub3.6万+标星,解决复杂任务全程无需人类插手

Openlab_cosmoplat

人工智能 GitHub 开源社区 autogpt

openGauss加入 CNCF Landscape

openGauss

宇信科技加入正式openGauss社区

openGauss

跨平台应用开发进阶(四十一)使用Xcode打包 iOS 应用 archive 时四种证书的区别详解

No Silver Bullet

uni-app 跨平台 三周年连更

二极管/三极管/MOS管的封装类型,看这一篇就够了!

元器件秋姐

科普 封装 三极管 元器件 二极管

通过alter table 来实现重建表,同事大呼开眼界了

架构精进之路

MySQL 数据库· 三周年连更

ElasticSearch 分组统计(逗号分割字符串/nested集合对象)

alexgaoyh

elasticsearch 分组查询 聚合查询 逗号分割 nested

来用友BIP技术大会,一同见证IT组织从传统运维向价值运营大转变

用友BIP

技术大会 用友iuap 用友技术大会 升级企业数智化底座

AI黑云压城,程序员真的没有未来了吗?| 社区征文

bug菌

三周年征文

MegEngine 使用小技巧:使用 Optimizer 优化参数

MegEngineBot

神经网络 深度学习 开源框架 MegEngine 参数优化

全国计算机等级二级考试新科目—openGauss数据库程序设计

openGauss

人工智能基础数据服务,第一!

百度开发者中心

人工智能 云宇宙 百度文心一言

艾融软件正式加入openGauss社区

openGauss

海量数据×桂林银行 | 满足金融用户稳健周密需求,做好国内数据库演进的实践担当

openGauss

ElasticSearch 自定义相似度插件-根据命中数排序

alexgaoyh

elasticsearch 自定义插件 相似度算法 词频排序 命中数排序

白嫖!字节跳动 Java岗顶级面试解析(2023版),GitHub巅峰神作!

三十而立

Java java面试

2023面试到底有多难?大厂为何都注重算法?我们该如何应对?

程序知音

Java 面试 算法 数据结构与算法 后端技术

升级数智化底座是企业数智化转型的必经之路

用友BIP

技术大会 用友iuap 用友技术大会 升级企业数智化底座

『PO价值最大化』沙盘演练!

ShineScrum捷行

从根上理解——高并发,向着高薪迈步!

三十而立

Java java面试

IDEA统计代码行数

六月的雨在InfoQ

IDEA 三周年连更 statistic 代码行数

讲真,这次文档页升级我们用心了

百度开发者中心

百度地图

MobTech MobPush|不同手机厂商推送问题

MobTech袤博科技

手把手教你集成ChatGPT到公众号

派大星

ChatGPT

Java:如何加密或解密PDF文档?

在下毛毛雨

Java 加密 PDF java解密 解密

构建车联网生态,车企为什么非它不可?

编程猫

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

三十而立

Java java面试

openGauss加入 CNCF Landscape

openGauss

开源7天Github斩获4.5万Stars!阿里2023版高并发设计实录鲨疯了

三十而立

Java java面试

直播|StarRocks 3.0 极速统一的湖仓新范式

StarRocks

大数据 开源 数据湖 #数据库 湖仓一体

艾融软件正式加入openGauss社区

openGauss

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步_文化 & 方法_李冬梅_InfoQ精选文章