来QCon北京,现场感受“纯血鸿蒙”的魅力!席位有限,抓紧报名 了解详情
写点什么

DeepMind 又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

  • 2022-09-07
    北京
  • 本文字数:1437 字

    阅读完需:约 5 分钟

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步

可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模型如何得出最终答案,因此用户难以论证答案合理性、也不易发现答案中的潜在错误。


DeepMind 研究团队在最新论文《使用大型语言模型实现可信推理》(Faithful Reasoning Using Large Language Models)中解决了这个问题。论文提出一套前向链选择推理模型,能够执行忠实推理并提供有效的推理跟踪,用以提高推理质量并帮助用户检查 / 验证最终答案。



论文地址:

https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

如何利用因果逻辑原理提高推理质量?


为了突破机器学习可解释性这道难关,DeepMind 研究团队在论文中展示了如何通过因果结构反映问题的潜在逻辑结构,借此过程保证语言模型忠实执行多步推理。研究团队的方法会将多个推理步骤联系起来共同起效,其中各个步骤均会调用两套经过微调的语言模型:其一用于选择,其二用于推理,借此产生有效的推理跟踪。


该方法还会对推理轨迹空间执行定向搜索,借此提高推理质量。


论文中提出的方法基于这一基本思想:如果给定问题的潜在逻辑结构,可以通过因果结构来反映,则语言模型可以忠实执行多步推理。为了实现这个目标,DeepMind 团队开发出选择推理(SI)作为系统主干。作为一种新颖架构,其中包含两套经过微调的语言模型,一套用于选择、一套用于推理。



分步前向推理主干会将各个推理步骤拆分为两个:


1)给定一个问题,由选择模型首先从上下文中选择一组语句;

2)推理模型随后从选择中计算一个语句,预测其含义(推理)


在推理步骤结束时,该推理会被添加至上下文内。通过迭代整个选择与推理过程,模型即可产生推理轨迹,而最终推理将用于回答问题。



为了让模型能够确定何时停止推理,该团队还引入了一个两段式 halter。它会利用微调的语言模型来预测该模型能否在当前推理之下回答给定问题。如果模型无法以高置信度回答问题,则执行另一次选择推理迭代;如果 halter 的输出就是答案,则终止此过程并返回答案。假设选择推理循环持续到预先指定的迭代次数,但仍未得出答案,则系统不会直接给出最佳猜测、而是返回 “未知”。


研究人员观察到,在删除掉模型认为无法忠实回答的问题之后,模型性能得到显著提高。他们相信,这种方法有助于提高模型在以精确度(而非召回率)为优先的现实世界中的可信度与安全性。



实际效果

在这次实证研究中,该团队将自己的选择推理系统与 Proof Writer(PW)和 EntailmentBankQA(EB)数据集上的基准模型进行了比较。他们提出的模型在 PW 和 EB 上分别实现了 88.1% 和 78.1% 的最终答案准确率,大大优于基准模型。


这项工作表明 DeepMind 提出的新方法确实能在不牺牲模型性能的前提下,通过多步推理对问题做出忠实回答。虽然该研究目前只侧重于给定上下文中的多步骤推理,但该团队已经计划在未来的工作中利用检索进一步充实上下文信息。


从实际性能来看,尽管存在“只能执行可信推理”的限制,该模型的实际表现仍然非常出色。考虑到如果一项技术要想安全普及、为大众所接受,就必须能够通过审计检验,此次研究可能代表语言模型正向着可解释性迈出重要一步。


原文链接:


https://medium.com/syncedreview/deepminds-selection-inference-language-model-system-generates-humanly-interpretable-reasoning-8707817ad098


https://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-09-07 14:023946
用户头像
李冬梅 加V:busulishang4668

发布了 803 篇内容, 共 371.9 次阅读, 收获喜欢 994 次。

关注

评论

发布
暂无评论
发现更多内容

【我和openGauss的故事】 openGauss 5.0.0 事务相关语法

daydayup

倒计时2天 | 第六届openGauss技术文章征集活动最新初审合格名单(截至8.3)

daydayup

openGauss数据库源码解析系列文章—安全管理源码解析(五)

daydayup

山东布谷科技详解Android端直播应用源码保持优质直播质量的技术(三):可变比特率

山东布谷科技

android 软件开发 源码搭建 直播应用源码 可变比特率

MaxCompute发布按量付费闲时版,计算成本最高节省66.66%!

阿里云大数据AI技术

MaxCompute

Spring Boot 最佳实践

越长大越悲伤

Java spring Spring Boot

JDV背后的技术-助力618 | 京东云技术团队

京东科技开发者

数据化 可视化软件 可视化展示 企业号 8 月 PK 榜

MTK 2.9.2 迁移Oracle 11g 至 openGauss 5.0.0操作指南

daydayup

汽车之家APP端到端全链路治理最佳技术实践

之家技术

质量 质量赋能 端到端 质量监控 质量指标

5个高并发场景优化的衡量指标

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

大语言模型推理性能优化之七策

Baihai IDP

人工智能 大模型 白海科技 推理优化 大模型推理

汽车之家页面性能监控建设实践

之家技术

质量 质量赋能 质量监控 质量指标 质量检测

Spring高手之路11——BeanDefinition解密:构建和管理Spring Beans的基石

砖业洋__

spring BeanDefinition Bean配置

如何在短视频中合成“虚拟数字人”?

阿里云视频云

云计算 剪辑 视频云 数字人

【我和openGauss的故事】为集群增加VIP

daydayup

openGauss数据库源码解析系列文章—安全管理源码解析(五)

daydayup

详细的Java学习路线+Java每个阶段核心知识点+Java工作就业方向

java易二三

Java 编程 程序员 计算机 基础

DDD项目落地之充血模型实践 | 京东云技术团队

京东科技开发者

DDD 充血模型 聚合根 企业号 8 月 PK 榜

【我和openGauss的故事】带有out参数的存储过程及自定义函数的重载测试

daydayup

如何用IoT边缘连接器实现云端应用控制PLC?

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

加速未来!汽车之家App应用性能优化总结与后续展望

之家技术

前端 性能 App 质量 质量赋能

学生管理系统架构设计文档

艾瑾行

Studio One 6 for mac(音乐制作工具) v6.2.0中文特别版

mac

Studio One 音乐制作软件 苹果mac

【我和openGauss的故事】可视化运维平台openGauss Datakit带你轻松玩转openGauss 5.0

daydayup

【开源三方库】Aki:一行代码极简体验JS&C++跨语言交互

OpenHarmony开发者

OpenHarmony

基于YonGPT 的智能大搜,让知识赋能业务和组织!

用友BIP

企业服务大模型 YonGPT

【我和openGauss的故事】使用Ora2Pg迁移oracle数据到openGauss

daydayup

【我和openGauss的故事】openGauss 5.0.0企业版x86单机安装

daydayup

仪表板修改优化实操案例

搞大屏的小北

数据看板 大屏布局 大屏设计 大屏设计优化 数据看板优化

小模型赋能大电网,手机拍照来建档

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

汽车之家铸精品工程

之家技术

质量 质量赋能 质量监控 质量指标

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步_文化 & 方法_李冬梅_InfoQ精选文章