写点什么

DeepMind 又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

  • 2022-09-07
    北京
  • 本文字数:1437 字

    阅读完需:约 5 分钟

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模型如何得出最终答案,因此用户难以论证答案合理性、也不易发现答案中的潜在错误。


DeepMind 研究团队在最新论文《使用大型语言模型实现可信推理》(Faithful Reasoning Using Large Language Models)中解决了这个问题。论文提出一套前向链选择推理模型,能够执行忠实推理并提供有效的推理跟踪,用以提高推理质量并帮助用户检查 / 验证最终答案。



论文地址:

https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

如何利用因果逻辑原理提高推理质量?


为了突破机器学习可解释性这道难关,DeepMind 研究团队在论文中展示了如何通过因果结构反映问题的潜在逻辑结构,借此过程保证语言模型忠实执行多步推理。研究团队的方法会将多个推理步骤联系起来共同起效,其中各个步骤均会调用两套经过微调的语言模型:其一用于选择,其二用于推理,借此产生有效的推理跟踪。


该方法还会对推理轨迹空间执行定向搜索,借此提高推理质量。


论文中提出的方法基于这一基本思想:如果给定问题的潜在逻辑结构,可以通过因果结构来反映,则语言模型可以忠实执行多步推理。为了实现这个目标,DeepMind 团队开发出选择推理(SI)作为系统主干。作为一种新颖架构,其中包含两套经过微调的语言模型,一套用于选择、一套用于推理。



分步前向推理主干会将各个推理步骤拆分为两个:


1)给定一个问题,由选择模型首先从上下文中选择一组语句;

2)推理模型随后从选择中计算一个语句,预测其含义(推理)


在推理步骤结束时,该推理会被添加至上下文内。通过迭代整个选择与推理过程,模型即可产生推理轨迹,而最终推理将用于回答问题。



为了让模型能够确定何时停止推理,该团队还引入了一个两段式 halter。它会利用微调的语言模型来预测该模型能否在当前推理之下回答给定问题。如果模型无法以高置信度回答问题,则执行另一次选择推理迭代;如果 halter 的输出就是答案,则终止此过程并返回答案。假设选择推理循环持续到预先指定的迭代次数,但仍未得出答案,则系统不会直接给出最佳猜测、而是返回 “未知”。


研究人员观察到,在删除掉模型认为无法忠实回答的问题之后,模型性能得到显著提高。他们相信,这种方法有助于提高模型在以精确度(而非召回率)为优先的现实世界中的可信度与安全性。



实际效果

在这次实证研究中,该团队将自己的选择推理系统与 Proof Writer(PW)和 EntailmentBankQA(EB)数据集上的基准模型进行了比较。他们提出的模型在 PW 和 EB 上分别实现了 88.1% 和 78.1% 的最终答案准确率,大大优于基准模型。


这项工作表明 DeepMind 提出的新方法确实能在不牺牲模型性能的前提下,通过多步推理对问题做出忠实回答。虽然该研究目前只侧重于给定上下文中的多步骤推理,但该团队已经计划在未来的工作中利用检索进一步充实上下文信息。


从实际性能来看,尽管存在“只能执行可信推理”的限制,该模型的实际表现仍然非常出色。考虑到如果一项技术要想安全普及、为大众所接受,就必须能够通过审计检验,此次研究可能代表语言模型正向着可解释性迈出重要一步。


原文链接:


https://medium.com/syncedreview/deepminds-selection-inference-language-model-system-generates-humanly-interpretable-reasoning-8707817ad098


https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2022-09-07 14:024006
用户头像
李冬梅 加V:busulishang4668

发布了 862 篇内容, 共 434.5 次阅读, 收获喜欢 1037 次。

关注

评论

发布
暂无评论
发现更多内容

2024全新版 操作系统入门与实践-参透技术本质

Geek_0324a7

30天 零基础 系统化学会C++

Geek_0324a7

万界星空科技MES系统中的业务流程

万界星空科技

MES系统 mes 万界星空科技 生成流程管理

精选一款/开源MES生产制造执行系统

万界星空科技

开源 mes 开源mes 万界星空科技mes

基于 Native 技术加速 Spark 计算引擎

Baidu AICLOUD

大数据 spark mapreduce Clickhouse Databricks

SpringBoot3.0 + RocketMq 构建企业级数据中台完结

Geek_0324a7

传媒行业指哪些?需要过等保吗?

行云管家

等保 等级保护 等保测评 传媒

如何在抖音/视频号/快手上进行体育赛事直播,需要哪些资料呢?

软件开发-梦幻运营部

NFTScan | 06.17~06.23 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

(超清完整)从0到1落地微前端架构, MicroApp实战招聘网站

Geek_0324a7

C++从0实现百万并发Reactor服务器

Geek_0324a7

TDengine 签约精诚瑞宝,开拓更智能的 IT 服务和管理平台

TDengine

数据库 tdengine 时序数据库

高性能多级网关与多级缓存架构落地实战(超清完

Geek_0324a7

前端高手特训 从0到1带你手写一个微信小程序底层框架(超清完结)

Geek_0324a7

Qt 全流程实战企业级项目 - 云对象存储浏览器

Geek_0324a7

LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)

Geek_0324a7

前端共学会:学习|成长|工作|职业,综合服务社区

Geek_0324a7

以ChatGPT为例,浅析AI究竟能干什么?

神州数码

AI ChatGPT

山寨币大额解锁抛压拖累比特币:10X Research 深度剖析市场动荡

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Mac角色扮演游戏推荐:仙剑奇侠传四 for Mac 安装包

你的猪会飞吗

Mac游戏下载 Mac游戏推荐 Mac游戏分享

再下一城!亚信科技&高诚科技,助力四川某市推进交通一体化

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 6 月 PK 榜

基于C++从0到1手写Linux高性能网络编程框架(超清)

Geek_0324a7

贵州正规等保测评机构还是四家吗?地址变了吗?

行云管家

等保 等级保护 等保测评 贵州

Stable Diffusion 商业变现与绘画大模型多场景实战(2024新课超清)

Geek_0324a7

AR罗生门:每次都说是风口,就是不起风?

AR玩家

AR Rokid Vision pro 炬目AR

USDT支付系统开发承兑商交易平台

西安链酷科技

慕课甄选-2024年Flutter零基础极速入门到进阶实战(完结)

Geek_0324a7

前端必学 40个精选案例实战 一课吃透HTML5+CSS3+JS(超清完结)

Geek_0324a7

Java解析微信获取手机号信息

EquatorCoco

Java 微信 开发语言

软件测试学习笔记丨Pytest - python 命令执行 pytest 代码

测试人

软件测试

Web网页端IM产品RainbowChat-Web的v7.0版已发布

JackJiang

即时通讯;IM;网络编程

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步_文化 & 方法_李冬梅_InfoQ精选文章