【AICon】硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会 >>> 了解详情
写点什么

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit 闭门会

  • 2023-08-02
    北京
  • 本文字数:3431 字

    阅读完需:约 11 分钟

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit闭门会

随着 ChatGPT 的火爆,大模型逐渐走入企业的视野,但在实际应用中存在着各种挑战与困难。在 7 月 21 日 ArchSummit全球架构师峰会(深圳站)上,我们就 AIGC 在各行业的应用与风险控制展开了深入的讨论。以下为脱敏版本的分享纪要,希望对您有所启发。

精彩分享 1


我们正在研发类似数字人的虚拟主播,以用于金融领域,如财报智能解读等。我们当前的方案是利用 ChatGPT 语言模型,并配合 GRM 来实现目标。我们选择在本地部署 ChatGLM-6B 模型,配合使用 Stable Diffusion 处理图片。


在常规情况下,我们会先根据上下文生成评论,然后进行 PDF 解析和添加图片,最后生成一分钟以内的播报。


另一个项目是关于垂直领域的场景,我们正在探索如何结合风控原有数据,利用 Chatgpt 进行解读。其中包括使用上下文或 langchain 等方式。


目前,这方面的效果还在验证阶段,不过它的效果将依赖于我们系统中台的能力。我们正在努力将中台的所有功能和服务能力转变为函数和服务接口,并通过 GPT 的提问方式调用这些接口,进而生成文本。


最后,我们团队正在认真考虑 AI 相关的风险问题。但是我们选择保守一些,让其他竞争者先探索,我们主要关注一些较浅层次的应用。

精彩分享 2


在产品探索上,我们已经应用了两个小点。首先是,我们公司的市场品牌宣传,图文问题已经解决,以至于原来做这个事情的同事已经可以去别的部门了。


原来可能要花三天打磨一个 80 分的文章,现在一天可以产出 5~10 篇 70~75 分的文章。我们产出的这些文章主要用在 SEO 上,例如敏捷迭代、瀑布管理、DEBOR 等概念的介绍。这些内容并不需要质量非常高,只需要达到一定的程度。现在来看,这类型的内容可以由 AI 生成的。


另外是第二个应用——生成单元测试的用例。这个过程是建立在需求描述清楚,特别是函数的注释清楚的情况下,以前我们都会根据函数的参数类型和注释生成测试用例,现在这个过程更进一步,变得更方便了。


现在大约有 60-70%的单元测试就是这样生成出来的。但至于这个提效有多少,说实话,还不一定。我们用 Copilot 辅助写代码,感觉上很好,但很难量化它最终的产出效果。不像写营销文,我可以用 1/4 的成本,提升 3~5 倍的效率。目前来说我们内部的形容,大模型是一个更好用的补全工具。

精彩分享 3


我想分享两方面 Security for AI &  AI for Security。首先是 Security for AI,对于千片卡以上的大型模型,很可能需要使用公有云来运行。尽管我们可以通过专线接入云服务,但是我们也意识到这样做可能存在较大的风险。


目前我们正在思考如何规避这些风险。例如,将大型模型运行在云上需要对接机器学习管理平台,这些平台提供模型算法和基础能力,并能直接调用底层资源配置。


在这个过程中,权限管理是一个头疼的问题。普通用户的权限管理相对简单,每类用户的权限基本上没有太多管控,他们都可以直接连接到平台进行操作、调参和模型调优。然而,一旦员工离职,可能花费了数月时间训练出的模型就可能被直接拷走。


为了保障数据的安全共享,我们目前正在内部采用 TEE(可信执行环境)技术,用于不同部门间的数据共享。这样至少能确保数据是可信的,不会被窃取。但由于 TEE 技术受限于卡片性能,我们正在考虑如何提升性能。


目前,据说 H800 每百次可以支持一次计算性能的优化,然而目前性能上仍然相对较差。因此,我们正在研究是否有组合方案,例如将 CPU 的能力与 A100 和 A800 卡的性能结合,以实现隐私计算。


其次是 AI for Security,安全领域一直面临着一个难解决的问题,即安全运维。无论是国外还是国内,数据安全需求不断增加,因为需要同时记录流量日志、事件和报警等信息,这对于每家企业来说数据量都非常庞大。


例如,当攻击流量涌现时,如何分析哪些数据是攻击的,AI 在这方面能够提供很大的帮助。国外的一些公司,比如微软,已经将内部的安全运维交给了"Copilot",通过对话形式,安全运维人员可以直接了解每天关注的事件及其解决方案。


而国内主要是在已有的数据上进行自动化统计,真正智能化生成的内容还相对较少。不过,这个方向对于安全领域来说是一个值得探索的方向。

精彩分享 4


AI 大型模型具有几个优势。首先,它拥有广泛的知识库,尽管随着链路的加深,有时知识会有些模糊,但它所知道的比单个人类要丰富;其次,它具备强大的推理能力,特别在复杂的领域如理赔案件判定和保险条件评估方面,可以代替人力进行基础性的决策,从而节省了理赔保全等事务处理所需的人工劳动力,保留了一些专家级别的人力资源,提升了效率。然而,在生产关系上,生产力的提升带来的是效率的提升,而岗位本身并不会消失。人工审核在某些领域仍然是必要的。


而大型模型不是简单的 0 和 1 的准确判断,而是通过自回归推断来完成,在某种程度上是一种更大概率的预测。在 To B 领域追求精准的情况下,很难完全取代某些工种,AI 大型模型更多地作为副驾驶的存在,用于提高效率和生产力,但无法改变生产关系的基本需求,产品的需求仍然存在。


另一个方面是在风控场景中的应用。公司尝试使用智能助手辅助代理人使用复杂产品的 APP。最后,大型模型在内容生成领域有着广泛的应用,如文本、音频和视频生成。结合数字人技术,可以用于培训行业或保险产品推荐。例如,保险计划书,未来可能由代理人的数字分身来向客户解释,

精彩分享 5


我们的客户中有很多拥有大量文档,数量达到几千万份,这些文档的探索过程中发现了一些有意思的情况。在产品设计初期,由于搜索能力尚未完善,这些文档的潜在价值无法充分发挥,交互体验也不尽如人意。然而,随着搜索能力的提升,我们发现许多交互问题得到了解决。


然而,我们又发现搜索能力主要服务于普通员工,但存在一个场景尚未涵盖,即大部分政府单位,领导通常有秘书协助。他们需要整理相关文档内容。在政务领域等特定应用中,领导和局长需要查看与今年及前几年相关联的数据,秘书需要将这些相关内容整理并提供给领导。


这也是一个非常有市场需求的产品,目前,我们已经在开发阶段,通过模型来理解文档背后的逻辑,并将相关内容组织整理,模拟秘书的工作,然后将所需信息整理打包供查看和调阅。

精彩分享 6


为了保证核电站的安全,我们需要投入大约 500 亿的资金,其中有 2/3 用于预防措施。核电发电成本本身非常低,但由于安全要求高,大部分投资都用于设备的维护和人员的配备与培训。核电站面临的主要问题是如何防止人员和设备出现错误。


关于设备出错,目前的解决方案效率较低,我们需要定期对设备进行检查和维修,通过设备运行的历史数据,我们可以判断出何时需要维修,然而,这项任务对人员来说并不容易实现。因此,我们将这项任务交由 AI 来执行,


全世界核电厂的数据都是公开透明的。每个核电站的设备信息、运行情况、维修经验等都在全球范围内共享,我们建立了一个经验反馈系统。我们利用大模型进行核电厂的经验反馈数据分析。通过将全球所有核电厂的数据输入给这个系统,它可以根据我们的设备信息来判断可能存在的风险和后果。通过这种方式,我们能够更好地保障核电站的安全和运行效率。


针对人员减少出错的问题,培训是一个非常重要的措施。然而,培训成本高昂且效率较低。在需求分析、过程实施、效果评估以及人员的孪生建模等方面,我们现在主要依赖人力来完成,通过 AI,我们可以实现更精准的培训,它可以自动判断学员需要什么样的培训。


我自己是核电领域的第一个数字人,我用它来讲解核物理中的反应堆。不过我们希望进一步实现问答式的知识库。通过 AI 分析,我们可以直接提供学员所需的多模态教学内容,包括语音和视频教学。学员可以边学习边进行交互式评估。


我们正在开发一个名为"数字教室"的系统,将其作为教室的机器人,放置在教室中。通过这个系统,教员可以假装成学员,有意制造错误让机器人来分析是否需要相应的知识点。如果机器人能够说服教员,我们就可以投入使用。在人才培养领域,我们利用数字人技术代替了辅导员。

精彩分享 7


风险控制这块,可以考虑让内部员工签署保密协议,以确保他们不会泄露关键信息。另一个方法是通过控制 IDE 上传的大小来限制代码的传递。这样可以确保大规模的代码不会全部上传,只传递输入和结果等关键部分。敏感词扫描也是一个有效的措施,可以检测和阻止包含敏感信息的内容上传。


例如,像清华大模型等大型模型可以限制上传的大小,只允许传递部分关键信息,这样可以降低泄露的风险。虽然你可以询问大规模的问题,但是返回结果可能会受到限制,以保护核心技术和数据。


另外,设置一层网关并进行关键词拦截是一个有效的措施。通过在网关上设置关键词拦截功能,可以阻止包含敏感信息或公司核心技术的数据传递到外部。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-08-02 11:448286

评论

发布
暂无评论
发现更多内容

夹具、治具、模具零件加工|云MES系统解决方案

万界星空科技

开源 解决方案 MES系统

《这就是ChatGPT》读后感

叶轩子

人工智能 深度学习 ChatGPT

在langchain中使用自定义example selector

程序那些事

程序那些事 大语言模型 langchain

面向万物智联的应用框架的思考与探索

OpenHarmony开发者

OpenHarmony

一文详解TextBrewer

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

LMOps 工具链与千帆大模型平台

Baidu AICLOUD

LLMOps 大模型微调 千帆大模型平台 LMops

堡垒机-企业最好的家人,信息安全的守门人

行云管家

互联网 网络安全 信息安全 堡垒机

R2在全渠道业务线的落地 | 京东云技术团队

京东科技开发者

测试 质量 企业号 8 月 PK 榜 R2

开发秘籍,教你快速完成MySQL数据的差异对比!

NineData

数据库 监控治理 NineData 对比工具 对比软件

上海博卡:基于支付宝公私域隐私计算的精准营销探索实践

TRaaS

小程序 支付宝小程序 隐私计算

使用 Vue 自定义拖放文件上传

互联网工科生

GitHub Vue 代码

redis 的哨兵模式详解和实战

java易二三

Java redis 编程 程序员 计算机

线程池-从零到一了解并掌握线程池

派大星

线程池 Java 面试题

科兴未来|2023“数智未来,聚放神采”医疗科技创新挑战赛

科兴未来News

从源码层面深度剖析Spring循环依赖 | 京东云技术团队

京东科技开发者

spring 源码剖析 循环依赖 @Bean 企业号 8 月 PK 榜

MySQL 体系结构

红袖添香

MySQL 存储引擎 InnoDB存储引擎

融云荣登36氪WISE2023「全球化最佳基础设施」榜单

融云 RongCloud

全球化 通信 运营 融云 wise

redis 和 memcached 有什么区别?redis 的线程模型是什么?为什么 redis 单线程却能支撑高并发?

java易二三

redis 编程 程序员 面试 计算机

服装行业多模态算法个性化产品定制方案 | 京东云技术团队

京东科技开发者

数据化 AIGC GPT 企业号 8 月 PK 榜

MySQL事务ACID原理

红袖添香

MySQL 数据库 事务 ACID MySQL InnoDB

DFS算法解析

数新网络官方账号

算法 DFS 深度优先搜索

什么是数字化管理,对企业价值几何?

优秀

数字化转型 数字经济 数字化管理

HDC 2023丨以HarmonyOS技术赋能艺术,引领鸿蒙生态媒体体验升级

最新动态

Downie 4 for Mac(视频下载软件) 4.6.24中文直装版

mac

视频下载工具 苹果mac Windows软件 Downie

ps2023ai破解下载 photoshop 2023beta 25.0最新激活安装 永久使用

晴雯哥

火山引擎DataLeap数据质量动态探查及相关前端实现

字节跳动数据平台

大数据 数据中台 数据治理 数据安全 企业号 8 月 PK 榜

桌面应用打包:pyinstaller | 京东物流技术团队

京东科技开发者

Python pyinstaller 桌面应用 企业号 8 月 PK 榜

InnoDB 单表数据量超过 2000W 出现性能问题

红袖添香

MySQL innodb 索引 B+树 缓冲池

10分钟了解Flink Watermark水印

不焦躁的程序员

Java 大数据 flink 程序员

深入理解 HDFS(四):Socket

冰心的小屋

hdfs NameNode IPC Server HDFS client 通信渠道

5 小时玩转阿里云 Flink 实时湖仓,速速报名!

Apache Flink

大数据 flink 实时计算

AIGC 应用与风险控制,你们先探索,我们紧随其后 |ArchSummit闭门会_架构_李忠良_InfoQ精选文章