NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit 闭门会

  • 2023-08-02
    北京
  • 本文字数:3431 字

    阅读完需:约 11 分钟

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit闭门会

随着 ChatGPT 的火爆,大模型逐渐走入企业的视野,但在实际应用中存在着各种挑战与困难。在 7 月 21 日 ArchSummit全球架构师峰会(深圳站)上,我们就 AIGC 在各行业的应用与风险控制展开了深入的讨论。以下为脱敏版本的分享纪要,希望对您有所启发。

精彩分享 1


我们正在研发类似数字人的虚拟主播,以用于金融领域,如财报智能解读等。我们当前的方案是利用 ChatGPT 语言模型,并配合 GRM 来实现目标。我们选择在本地部署 ChatGLM-6B 模型,配合使用 Stable Diffusion 处理图片。


在常规情况下,我们会先根据上下文生成评论,然后进行 PDF 解析和添加图片,最后生成一分钟以内的播报。


另一个项目是关于垂直领域的场景,我们正在探索如何结合风控原有数据,利用 Chatgpt 进行解读。其中包括使用上下文或 langchain 等方式。


目前,这方面的效果还在验证阶段,不过它的效果将依赖于我们系统中台的能力。我们正在努力将中台的所有功能和服务能力转变为函数和服务接口,并通过 GPT 的提问方式调用这些接口,进而生成文本。


最后,我们团队正在认真考虑 AI 相关的风险问题。但是我们选择保守一些,让其他竞争者先探索,我们主要关注一些较浅层次的应用。

精彩分享 2


在产品探索上,我们已经应用了两个小点。首先是,我们公司的市场品牌宣传,图文问题已经解决,以至于原来做这个事情的同事已经可以去别的部门了。


原来可能要花三天打磨一个 80 分的文章,现在一天可以产出 5~10 篇 70~75 分的文章。我们产出的这些文章主要用在 SEO 上,例如敏捷迭代、瀑布管理、DEBOR 等概念的介绍。这些内容并不需要质量非常高,只需要达到一定的程度。现在来看,这类型的内容可以由 AI 生成的。


另外是第二个应用——生成单元测试的用例。这个过程是建立在需求描述清楚,特别是函数的注释清楚的情况下,以前我们都会根据函数的参数类型和注释生成测试用例,现在这个过程更进一步,变得更方便了。


现在大约有 60-70%的单元测试就是这样生成出来的。但至于这个提效有多少,说实话,还不一定。我们用 Copilot 辅助写代码,感觉上很好,但很难量化它最终的产出效果。不像写营销文,我可以用 1/4 的成本,提升 3~5 倍的效率。目前来说我们内部的形容,大模型是一个更好用的补全工具。

精彩分享 3


我想分享两方面 Security for AI &  AI for Security。首先是 Security for AI,对于千片卡以上的大型模型,很可能需要使用公有云来运行。尽管我们可以通过专线接入云服务,但是我们也意识到这样做可能存在较大的风险。


目前我们正在思考如何规避这些风险。例如,将大型模型运行在云上需要对接机器学习管理平台,这些平台提供模型算法和基础能力,并能直接调用底层资源配置。


在这个过程中,权限管理是一个头疼的问题。普通用户的权限管理相对简单,每类用户的权限基本上没有太多管控,他们都可以直接连接到平台进行操作、调参和模型调优。然而,一旦员工离职,可能花费了数月时间训练出的模型就可能被直接拷走。


为了保障数据的安全共享,我们目前正在内部采用 TEE(可信执行环境)技术,用于不同部门间的数据共享。这样至少能确保数据是可信的,不会被窃取。但由于 TEE 技术受限于卡片性能,我们正在考虑如何提升性能。


目前,据说 H800 每百次可以支持一次计算性能的优化,然而目前性能上仍然相对较差。因此,我们正在研究是否有组合方案,例如将 CPU 的能力与 A100 和 A800 卡的性能结合,以实现隐私计算。


其次是 AI for Security,安全领域一直面临着一个难解决的问题,即安全运维。无论是国外还是国内,数据安全需求不断增加,因为需要同时记录流量日志、事件和报警等信息,这对于每家企业来说数据量都非常庞大。


例如,当攻击流量涌现时,如何分析哪些数据是攻击的,AI 在这方面能够提供很大的帮助。国外的一些公司,比如微软,已经将内部的安全运维交给了"Copilot",通过对话形式,安全运维人员可以直接了解每天关注的事件及其解决方案。


而国内主要是在已有的数据上进行自动化统计,真正智能化生成的内容还相对较少。不过,这个方向对于安全领域来说是一个值得探索的方向。

精彩分享 4


AI 大型模型具有几个优势。首先,它拥有广泛的知识库,尽管随着链路的加深,有时知识会有些模糊,但它所知道的比单个人类要丰富;其次,它具备强大的推理能力,特别在复杂的领域如理赔案件判定和保险条件评估方面,可以代替人力进行基础性的决策,从而节省了理赔保全等事务处理所需的人工劳动力,保留了一些专家级别的人力资源,提升了效率。然而,在生产关系上,生产力的提升带来的是效率的提升,而岗位本身并不会消失。人工审核在某些领域仍然是必要的。


而大型模型不是简单的 0 和 1 的准确判断,而是通过自回归推断来完成,在某种程度上是一种更大概率的预测。在 To B 领域追求精准的情况下,很难完全取代某些工种,AI 大型模型更多地作为副驾驶的存在,用于提高效率和生产力,但无法改变生产关系的基本需求,产品的需求仍然存在。


另一个方面是在风控场景中的应用。公司尝试使用智能助手辅助代理人使用复杂产品的 APP。最后,大型模型在内容生成领域有着广泛的应用,如文本、音频和视频生成。结合数字人技术,可以用于培训行业或保险产品推荐。例如,保险计划书,未来可能由代理人的数字分身来向客户解释,

精彩分享 5


我们的客户中有很多拥有大量文档,数量达到几千万份,这些文档的探索过程中发现了一些有意思的情况。在产品设计初期,由于搜索能力尚未完善,这些文档的潜在价值无法充分发挥,交互体验也不尽如人意。然而,随着搜索能力的提升,我们发现许多交互问题得到了解决。


然而,我们又发现搜索能力主要服务于普通员工,但存在一个场景尚未涵盖,即大部分政府单位,领导通常有秘书协助。他们需要整理相关文档内容。在政务领域等特定应用中,领导和局长需要查看与今年及前几年相关联的数据,秘书需要将这些相关内容整理并提供给领导。


这也是一个非常有市场需求的产品,目前,我们已经在开发阶段,通过模型来理解文档背后的逻辑,并将相关内容组织整理,模拟秘书的工作,然后将所需信息整理打包供查看和调阅。

精彩分享 6


为了保证核电站的安全,我们需要投入大约 500 亿的资金,其中有 2/3 用于预防措施。核电发电成本本身非常低,但由于安全要求高,大部分投资都用于设备的维护和人员的配备与培训。核电站面临的主要问题是如何防止人员和设备出现错误。


关于设备出错,目前的解决方案效率较低,我们需要定期对设备进行检查和维修,通过设备运行的历史数据,我们可以判断出何时需要维修,然而,这项任务对人员来说并不容易实现。因此,我们将这项任务交由 AI 来执行,


全世界核电厂的数据都是公开透明的。每个核电站的设备信息、运行情况、维修经验等都在全球范围内共享,我们建立了一个经验反馈系统。我们利用大模型进行核电厂的经验反馈数据分析。通过将全球所有核电厂的数据输入给这个系统,它可以根据我们的设备信息来判断可能存在的风险和后果。通过这种方式,我们能够更好地保障核电站的安全和运行效率。


针对人员减少出错的问题,培训是一个非常重要的措施。然而,培训成本高昂且效率较低。在需求分析、过程实施、效果评估以及人员的孪生建模等方面,我们现在主要依赖人力来完成,通过 AI,我们可以实现更精准的培训,它可以自动判断学员需要什么样的培训。


我自己是核电领域的第一个数字人,我用它来讲解核物理中的反应堆。不过我们希望进一步实现问答式的知识库。通过 AI 分析,我们可以直接提供学员所需的多模态教学内容,包括语音和视频教学。学员可以边学习边进行交互式评估。


我们正在开发一个名为"数字教室"的系统,将其作为教室的机器人,放置在教室中。通过这个系统,教员可以假装成学员,有意制造错误让机器人来分析是否需要相应的知识点。如果机器人能够说服教员,我们就可以投入使用。在人才培养领域,我们利用数字人技术代替了辅导员。

精彩分享 7


风险控制这块,可以考虑让内部员工签署保密协议,以确保他们不会泄露关键信息。另一个方法是通过控制 IDE 上传的大小来限制代码的传递。这样可以确保大规模的代码不会全部上传,只传递输入和结果等关键部分。敏感词扫描也是一个有效的措施,可以检测和阻止包含敏感信息的内容上传。


例如,像清华大模型等大型模型可以限制上传的大小,只允许传递部分关键信息,这样可以降低泄露的风险。虽然你可以询问大规模的问题,但是返回结果可能会受到限制,以保护核心技术和数据。


另外,设置一层网关并进行关键词拦截是一个有效的措施。通过在网关上设置关键词拦截功能,可以阻止包含敏感信息或公司核心技术的数据传递到外部。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-08-02 11:448265

评论

发布
暂无评论
发现更多内容

Java实现文件切割拼接,MongoDB数据分布不均的解决方案

Java 程序员 后端

Java中高级核心知识全面解析——常用框架(Spring中都用到了那些设计模式-)

Java 程序员 后端

Java中高级核心知识全面解析——系统设计(RestFul-API[概念

Java 程序员 后端

Java之String重点解析,成功定级腾讯T3-2

Java 程序员 后端

Java学习笔记——内部类,linux底层架构

Java 程序员 后端

Java匹马行天下之一顿操作猛如虎,框架作用知多少?,HTTPS面试常问全解析

Java 程序员 后端

Java各种锁详情,java中间件技术及其应用开发

Java 程序员 后端

linux中删除特殊文件

入门小站

Linux

Java学习笔记——String,java程序开发实战教程在线

Java 程序员 后端

Java安全之反序列化回显与内存码,java面试个人规划

Java 程序员 后端

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day14,mybatis常见面试题

Java 程序员 后端

Java基础22 网络编程(HTTP和UDP),java基础入门课后编程题答案

Java 程序员 后端

JAVA多线程和并发基础面试问答,吊打面试官你也可以,看完这一篇你就懂了

Java 程序员 后端

Java学到什么程度才算精通?,springmvc原理图解

Java 程序员 后端

Java中return和finally到底哪个先执行,java程序设计实用教程叶核亚第五版

Java 程序员 后端

java使用poi操作world生成饼图,柱状图,折线图,java微服务架构训练营

Java 程序员 后端

Java基础15 Java常用类,深入剖析

Java 程序员 后端

Java基础16 集合(ArrayList、LinkedList,linux操作系统教程电子版

Java 程序员 后端

JavaWeb快速入门--Filter&Listener,java百度网盘课程

Java 程序员 后端

Java中的程序控制流程,java在线编译器实现原理

Java 程序员 后端

Java基础面试题——IO流(1),mysql数据库开发面试

Java 程序员 后端

Java多态实现原理,java同步锁原理

Java 程序员 后端

Java中高级核心知识全面解析——Dubbo,java架构师课程下载

Java 程序员 后端

Java到Kotlin入门,这一篇就够啦,java开发岗高频面试题全解析祖国的花朵

Java 程序员 后端

Java基础 - 正则,Math,Random,零基础学java电子书

Java 程序员 后端

Java岗大厂面试百日冲刺 - 日积月累,每日三题【Day20,从java后端到全栈百度云

Java 程序员 后端

java入门基础三(执行语句),Java多线程面试题大全含答案

Java 程序员 后端

Java基础 - 单列集合,ArrayList,Vector,从零开始学springboot百度网盘

Java 程序员 后端

Java基础面试题——IO流,Netty时间轮调度算法原理分析

Java 程序员 后端

Java中高级核心知识全面解析——JVM,java全套视频教程

Java 程序员 后端

Java中高级核心知识全面解析——常用框架(Spring常用注解

Java 程序员 后端

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit闭门会_架构_李忠良_InfoQ精选文章