写点什么

“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广

  • 2024-05-09
    北京
  • 本文字数:3421 字

    阅读完需:约 11 分钟

大小:1.67M时长:09:42
“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广

作者 | 华卫

采访嘉宾|王文广,达观数据副总裁

 

GPT 爆火一年多后,无论在国内、外,“几乎所有领域都需要用大模型重构”的论调已深入人心。中国 200 多家厂商掀起的“百模大战”、层出不穷的千亿、万亿大参数模型、性能效果与应用方向的飞速迭代,无一不在表明大模型被各行各业拥抱的热潮力度。但在更多行业对大模型跃跃欲试之际,也有许多现实的落地问题浮现出来,可控性问题就是其中之一。

 

在 5 月 17 日即将召开的 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,InfoQ 邀请到了达观数据副总裁王文广做演讲分享,他将从大模型相关技术和幻觉问题为切入点,探讨如何利用知识图谱、RAG 和大模型融合的技术路线提高大模型的可解释性、可操作性和可控性。会前,InfoQ 对王文广老师进行了专访,听他先聊一聊大模型的不可控之处和对技术路径的应用判断。

 

以下为访谈实录,经编辑。

 

大模型“不受控”在哪?

InfoQ:说到可控性问题,现在大模型在哪些方面的输出是“不受控”的?

王文广:大模型输出的内容是根据用户输入的 prompt 去生成的,是由模型本身能力来决定的,如果要从细节上来控制模型的输出是不可能的。也就是说,大模型本质上是不可控的。实际应用来讲,大模型的不可控可以从两方面来讲:一是输出的内容与用户预期一致就是是可信的,跟预期不一致就是所谓的幻觉;二是可控性在使用时未必一定是需要的,比如说写小说写剧本等,即使天马行空也没什么大问题。

另外对中国的用户来讲,还有些场景下,可控性是要求很高的。比如有时候会要求必须一字不差地按照给定的内容输出时。但可控性与幻觉又是不同的概念,幻觉是跟事实不符,可控性则是跟预期是否一致。

 

InfoQ:可控性问题是大模型目前落地的最大阻碍吗?业内现有的大模型产品达到什么样的效果?

王文广:不能完全说是障碍,要分场景的,只是在部分可控性要求高的场景下是障碍,比如制造业、金融领域的应用等。也就是说,对输出结果的精确度要求越高,可控性的影响越大。

我认为大模型追求的目标并非可控性,而是模型自身的能力。它的智能化水平与可控性并没有很强的关联,越强的大模型,未必可控性一定做得越好,但可控性可以用别的方法去做。

 

InfoQ:从安全和合规层面来说,整个行业如何能够共同推动大模型的可控?

王文广:这个主要还是要由大模型的提供商来解决这个问题,要保证输出的内容适应各地的法规、习惯、隐私和道德要求。

主流的三种应对方式

 

InfoQ:要解决可控性问题,需要在大模型的哪些方面努力?

王文广:这个有比较多的方法,大家用的最多的是 RAG(检索增强生成)技术,把需要的东西检索出来,然后通过提示词的方法输入到模型里。还有的会采用分析神经网络里的激活链路的方式,这个比较难且成本非常高,所以可能真正用得不太多。

 

InfoQ:目前行业内在可控性问题的解决上,普遍采用哪些方式?

王文广:普遍用的就是 RAG ,特别是在应用里,但 RAG 本身也会有几方面的细分内容。一是搜索引擎,用这一方法去找到答案的大致范围,然后再通过提示词输入到大模型里,让它给出答案;二是向量数据库,用向量的方法去检索内容,但相比搜索引擎来讲,其可能也存在检索效率和精度等问题。因为搜索引擎起点蛮高的,要做好一个搜索引擎并不容易。

另外就是在产业用得比较多的知识图谱,它的好处对业务有很多预定义的结构,能够更方便地找到精确答案,然后再利用大模型把答案生成一段合理文本来回答。

主流来讲就是这三种方法:搜索引擎检索、向量检索和知识图谱增强。应用来说,偏通用的领域前两者比较多,在专业领域知识图谱更好一些。

 

InfoQ:知识图谱能为大模型可控带来多大的提升?在曹植大模型上的运用效果如何?

王文广:知识图谱和大模型是一个互补的关系。从原理上来讲,大模型本质上我们称之为归纳推理的结果,而知识图谱更多是演绎推理;从实用角度来讲的话,大模型是概率输出,无法精确控制,同时即使出错也无法进行编辑,知识图谱恰好能做修改的事,可以在里面写确定性的逻辑。知识图谱的劣势是构建成本高、有很多结构化的成本、逻辑推理要求能够理解业务,而这正是大模型所擅长的,比如说可以用大模型去做知识图谱的构建、语言的理解。两者的结合,刚好可以实现一个高度智能化且能够落地应用的系统。知识图谱和曹植大模型融合在效果上是非常好的,被金融、制造、能源等广泛的行业客户所接受。

 

InfoQ:RAG 能为大模型可控带来多大的提升?在曹植大模型上的运用效果如何?

王文广:最大的提升方向是,用这一方法去提升大模型,相当于把开放性的题目变成选择题。在曹植大模型的落地中,大量才用了与知识图谱融合的方法。

 

InfoQ:对于 RAG 本身的局限之处,在大模型可控的应用实践中如何避免?

王文广:要做大模型落地,RAG 技术是不可避免会遇到的,用别的技术方法只会更难或者效果达不到预期。具体的局限之处要看方法,RAG 的三个方向各自都有其难点所在。搜索引擎的局限在于复杂性,搜索引擎是一个庞大的复杂系统;向量检索乍一看非常简单,但可控性非常差,遇到问题没法去更改,在落地的时候往往会发现,细节是魔鬼,越到后面越没法用;知识图谱和搜索引擎一样是很复杂的知识体系,学习起来都很复杂,而且一个知识图谱往往是针对不同的业务去做的,很难构建起全面的知识图谱。

我们现在的做法,是在一个系统里把这三种方法都用起来,每一种方法都有弱点,那就用别的方法去补充。如果只会其中一种方法,顶多就 60 分吧,其实挺难做好的的。

单靠大模型,永远达不到预期

InfoQ:大模型与知识图谱之间有不少重叠的应用能力,二者会相互替代吗?

王文广:我觉得它们永远不会相互替代。举例来说,人类已经很聪明了,但需要精确的专业知识时还是需要去查百科全书。对大模型来讲也是一样的,它也不可能记住所有东西,特别是专业领域的知识,所以我经常说,知识图谱是大模型的百科全书;并且,大模型也需要更新,越大的模型更新越慢,训练也需要时间。所以大模型总需要某种方法来补充信息,知识库就是一个很好的选择。所以,我经常说,书籍是人类进步的阶梯,知识图谱就是大模型(人工智能)进步的阶梯,哈哈。

 

InfoQ:大模型是否能反哺知识图谱的构建与发展?基于大模型的知识图谱能统一吗?

王文广:最直接的影响是,现在有了大模型以后,知识图谱的一些研究方向已经不再做了,比如问答。因为大模型在这些方面做得挺好,互相组合去做就可以了。随之带来的影响就是,大家可以有更多精力做知识图谱的其他方向,比如说推理,这可能也是未来知识图谱会融合大模型去做的一个研究方向。

 

InfoQ:现阶段以及将来有哪些技术可以助力提高大模型的可控性?

王文广:目前来讲我觉得主要就是刚刚提到的三个方法,还有就是大模型本身能力的增强,比如训练一个针对特有领域的技术,可用但成本比较高,而且在语言模型里面好像大家做得不太多,可能还是效果没那么好。

 

InfoQ:您认为大模型在可控性上达到业界和大众的普遍认可,还需要多长时间?

王文广:我觉得单靠大模型很难的,也许永远都达不到大家的预期,必须结合前面说的这几种方法。因为大模型再牛,如果语料里没有相关内容(比如刚刚发生的事情),肯定是答不好的。举一个例子,现在(2024 年 5 月 8 日)问不带检索增强的大模型有关嫦娥六号的内容,肯定全是一本正经胡说八道。

 

InfoQ:在即将到来的 AI Con 上,您准备向听众分享哪些方面的内容?

王文广:我主要会讲两部分,也是大家比较关心的方面。一是具体怎么去解决可控性,我们会主要把搜索引擎、知识图谱和向量数据库组合在一起;二是我们实际在做的案例,因为现在大模型最大的问题就是怎么落地。

 

嘉宾介绍:

王文广,现担任达观数据副总裁,高级工程师职称,浦东新区“明珠计划”菁英人才,曾获得广东省科技进步奖二等奖,上海市计算机学会科技进步奖二等奖和上海市浦东新区科技进步奖二等奖。人工智能标准编制专家,《知识图谱:认知智能理论与实战》作者,参与编撰《智能文本处理实战》,《新程序员 * 人工智能新十年》顾问专家和文章作者,专注于知识图谱、通用人工智能 AGI、大模型、AI 大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。


活动推荐:

AICon全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击查看更多详情。



会议即将开幕,扫码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


2024-05-09 15:347215

评论

发布
暂无评论
发现更多内容

这份算法攻略,我拿到了5个大厂的offer

yes

面试 算法 笔试

6个JDK自带JVM调优工具,一次性打包给你说清楚

田维常

jvm调优

解读登录双因子认证(MFA)特性背后的TOTP原理

华为云开发者联盟

算法 totp 密钥

2020年底备战—从技术到面试合集

iOSer

ios 编程 面试

为什么容器内存占用居高不下,频频 OOM

996小迁

Java 架构 容器 面试 k8s

甲方日常 52

句子

工作 随笔杂谈 日常

响应式关系数据库处理R2DBC

程序那些事

MySQL R2DBC 程序那些事 响应式系统 响应式数据库

SQL数据库集合运算

正向成长

SQL表联结 SQL集合运算

什么是服务器租用?

德胜网络-阳

《程序员面试金典》.pdf

田维常

面试

读完某C++神作,我只记住了100句话

MySQL从删库到跑路

c++

Java中NullPointerException的完美解决方案

Silently9527

java8 Optional

基于Vue实现一个有点意思的拼拼乐小游戏

徐小夕

Java GitHub 开源 H5游戏 H5

厉害了!阿里内部都用的Spring+MyBatis源码手册,实战理论两不误

小Q

Java spring 学习 面试 mybatis

微服务架构中的“参天大树”:SpringBoot+SpringCloud+Docker

小Q

Java 学习 容器 面试 微服务

SpringBoot-技术专题-Hystrix学习介绍

码界西柚

影视剪辑类自媒体运营心得:如何抓住观众的痛点

石头IT视角

超越竞争文化:致善式创新能否打造手机产业的“海法城”

脑极体

有点意思的gif动图生成平台开发实战(二)

徐小夕

Java Vue 大前端 GIF React

Vokenization:一种比GPT-3更有常识的视觉语言模型

脑极体

Java中的线程与C++中的区别

jiangling500

Java c++ 线程

区块链数字货币商城系统开发模式

薇電13242772558

区块链 数字货币

容器和虚拟机到底有啥区别?

网管

容器 虚拟机

【JVM】肝了一周,吐血整理出这份超硬核的JVM笔记(升级版)!!

冰河

性能优化 内存模型 JVM 堆栈 JVM笔记

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

阿里云CloudImagine

架构 云直播 直播 流媒体 直播架构

花四个月和阿里面试官“大战”7回合,成功将其“斩于马下”!复盘面试题及答案!

Java架构追梦

Java 阿里巴巴 面试 java架构

程序员如何判断跳槽岗位是否有坑!

Java架构师迁哥

直播卖货已成趋势

anyRTC开发者

音视频 WebRTC RTC

支撑2715​亿元海量订单 揭秘京东大促背后的数据库基石

京东科技开发者

数据库 数据仓库 云服务 云数据库

.net core增强工作流组件,基于稳定平台,多项目整合开发

雯雯写代码

这才是图文并茂:我写了1万多字,就是为了让你了解AQS是怎么运行的

鄙人薛某

Java 并发编程 AQS 并发 ReentrantLock

“驯服”不受控的大模型,要搞定哪些事?| 专访达观数据副总裁王文广_机器学习/深度学习_华卫_InfoQ精选文章