AIGC 应用与风险控制，你们先探索，我们紧随其后｜ArchSummit闭门会

随着 ChatGPT 的火爆，大模型逐渐走入企业的视野，但在实际应用中存在着各种挑战与困难。在 7 月 21 日 ArchSummit全球架构师峰会（深圳站）上，我们就 AIGC 在各行业的应用与风险控制展开了深入的讨论。以下为脱敏版本的分享纪要，希望对您有所启发。

精彩分享 1

我们正在研发类似数字人的虚拟主播，以用于金融领域，如财报智能解读等。我们当前的方案是利用 ChatGPT 语言模型，并配合 GRM 来实现目标。我们选择在本地部署 ChatGLM-6B 模型，配合使用 Stable Diffusion 处理图片。

在常规情况下，我们会先根据上下文生成评论，然后进行 PDF 解析和添加图片，最后生成一分钟以内的播报。

另一个项目是关于垂直领域的场景，我们正在探索如何结合风控原有数据，利用 Chatgpt 进行解读。其中包括使用上下文或 langchain 等方式。

目前，这方面的效果还在验证阶段，不过它的效果将依赖于我们系统中台的能力。我们正在努力将中台的所有功能和服务能力转变为函数和服务接口，并通过 GPT 的提问方式调用这些接口，进而生成文本。

最后，我们团队正在认真考虑 AI 相关的风险问题。但是我们选择保守一些，让其他竞争者先探索，我们主要关注一些较浅层次的应用。

精彩分享 2

在产品探索上，我们已经应用了两个小点。首先是，我们公司的市场品牌宣传，图文问题已经解决，以至于原来做这个事情的同事已经可以去别的部门了。

原来可能要花三天打磨一个 80 分的文章，现在一天可以产出 5~10 篇 70~75 分的文章。我们产出的这些文章主要用在 SEO 上，例如敏捷迭代、瀑布管理、DEBOR 等概念的介绍。这些内容并不需要质量非常高，只需要达到一定的程度。现在来看，这类型的内容可以由 AI 生成的。

另外是第二个应用——生成单元测试的用例。这个过程是建立在需求描述清楚，特别是函数的注释清楚的情况下，以前我们都会根据函数的参数类型和注释生成测试用例，现在这个过程更进一步，变得更方便了。

现在大约有 60-70%的单元测试就是这样生成出来的。但至于这个提效有多少，说实话，还不一定。我们用 Copilot 辅助写代码，感觉上很好，但很难量化它最终的产出效果。不像写营销文，我可以用 1/4 的成本，提升 3~5 倍的效率。目前来说我们内部的形容，大模型是一个更好用的补全工具。

精彩分享 3

我想分享两方面 Security for AI & AI for Security。首先是 Security for AI，对于千片卡以上的大型模型，很可能需要使用公有云来运行。尽管我们可以通过专线接入云服务，但是我们也意识到这样做可能存在较大的风险。

目前我们正在思考如何规避这些风险。例如，将大型模型运行在云上需要对接机器学习管理平台，这些平台提供模型算法和基础能力，并能直接调用底层资源配置。

在这个过程中，权限管理是一个头疼的问题。普通用户的权限管理相对简单，每类用户的权限基本上没有太多管控，他们都可以直接连接到平台进行操作、调参和模型调优。然而，一旦员工离职，可能花费了数月时间训练出的模型就可能被直接拷走。

为了保障数据的安全共享，我们目前正在内部采用 TEE（可信执行环境）技术，用于不同部门间的数据共享。这样至少能确保数据是可信的，不会被窃取。但由于 TEE 技术受限于卡片性能，我们正在考虑如何提升性能。

目前，据说 H800 每百次可以支持一次计算性能的优化，然而目前性能上仍然相对较差。因此，我们正在研究是否有组合方案，例如将 CPU 的能力与 A100 和 A800 卡的性能结合，以实现隐私计算。

其次是 AI for Security，安全领域一直面临着一个难解决的问题，即安全运维。无论是国外还是国内，数据安全需求不断增加，因为需要同时记录流量日志、事件和报警等信息，这对于每家企业来说数据量都非常庞大。

例如，当攻击流量涌现时，如何分析哪些数据是攻击的，AI 在这方面能够提供很大的帮助。国外的一些公司，比如微软，已经将内部的安全运维交给了"Copilot"，通过对话形式，安全运维人员可以直接了解每天关注的事件及其解决方案。

而国内主要是在已有的数据上进行自动化统计，真正智能化生成的内容还相对较少。不过，这个方向对于安全领域来说是一个值得探索的方向。

精彩分享 4

AI 大型模型具有几个优势。首先，它拥有广泛的知识库，尽管随着链路的加深，有时知识会有些模糊，但它所知道的比单个人类要丰富；其次，它具备强大的推理能力，特别在复杂的领域如理赔案件判定和保险条件评估方面，可以代替人力进行基础性的决策，从而节省了理赔保全等事务处理所需的人工劳动力，保留了一些专家级别的人力资源，提升了效率。然而，在生产关系上，生产力的提升带来的是效率的提升，而岗位本身并不会消失。人工审核在某些领域仍然是必要的。

而大型模型不是简单的 0 和 1 的准确判断，而是通过自回归推断来完成，在某种程度上是一种更大概率的预测。在 To B 领域追求精准的情况下，很难完全取代某些工种，AI 大型模型更多地作为副驾驶的存在，用于提高效率和生产力，但无法改变生产关系的基本需求，产品的需求仍然存在。

另一个方面是在风控场景中的应用。公司尝试使用智能助手辅助代理人使用复杂产品的 APP。最后，大型模型在内容生成领域有着广泛的应用，如文本、音频和视频生成。结合数字人技术，可以用于培训行业或保险产品推荐。例如，保险计划书，未来可能由代理人的数字分身来向客户解释，

精彩分享 5

我们的客户中有很多拥有大量文档，数量达到几千万份，这些文档的探索过程中发现了一些有意思的情况。在产品设计初期，由于搜索能力尚未完善，这些文档的潜在价值无法充分发挥，交互体验也不尽如人意。然而，随着搜索能力的提升，我们发现许多交互问题得到了解决。

然而，我们又发现搜索能力主要服务于普通员工，但存在一个场景尚未涵盖，即大部分政府单位，领导通常有秘书协助。他们需要整理相关文档内容。在政务领域等特定应用中，领导和局长需要查看与今年及前几年相关联的数据，秘书需要将这些相关内容整理并提供给领导。

这也是一个非常有市场需求的产品，目前，我们已经在开发阶段，通过模型来理解文档背后的逻辑，并将相关内容组织整理，模拟秘书的工作，然后将所需信息整理打包供查看和调阅。

精彩分享 6

为了保证核电站的安全，我们需要投入大约 500 亿的资金，其中有 2/3 用于预防措施。核电发电成本本身非常低，但由于安全要求高，大部分投资都用于设备的维护和人员的配备与培训。核电站面临的主要问题是如何防止人员和设备出现错误。

关于设备出错，目前的解决方案效率较低，我们需要定期对设备进行检查和维修，通过设备运行的历史数据，我们可以判断出何时需要维修，然而，这项任务对人员来说并不容易实现。因此，我们将这项任务交由 AI 来执行，

全世界核电厂的数据都是公开透明的。每个核电站的设备信息、运行情况、维修经验等都在全球范围内共享，我们建立了一个经验反馈系统。我们利用大模型进行核电厂的经验反馈数据分析。通过将全球所有核电厂的数据输入给这个系统，它可以根据我们的设备信息来判断可能存在的风险和后果。通过这种方式，我们能够更好地保障核电站的安全和运行效率。

针对人员减少出错的问题，培训是一个非常重要的措施。然而，培训成本高昂且效率较低。在需求分析、过程实施、效果评估以及人员的孪生建模等方面，我们现在主要依赖人力来完成，通过 AI，我们可以实现更精准的培训，它可以自动判断学员需要什么样的培训。

我自己是核电领域的第一个数字人，我用它来讲解核物理中的反应堆。不过我们希望进一步实现问答式的知识库。通过 AI 分析，我们可以直接提供学员所需的多模态教学内容，包括语音和视频教学。学员可以边学习边进行交互式评估。

我们正在开发一个名为"数字教室"的系统，将其作为教室的机器人，放置在教室中。通过这个系统，教员可以假装成学员，有意制造错误让机器人来分析是否需要相应的知识点。如果机器人能够说服教员，我们就可以投入使用。在人才培养领域，我们利用数字人技术代替了辅导员。

精彩分享 7

风险控制这块，可以考虑让内部员工签署保密协议，以确保他们不会泄露关键信息。另一个方法是通过控制 IDE 上传的大小来限制代码的传递。这样可以确保大规模的代码不会全部上传，只传递输入和结果等关键部分。敏感词扫描也是一个有效的措施，可以检测和阻止包含敏感信息的内容上传。

例如，像清华大模型等大型模型可以限制上传的大小，只允许传递部分关键信息，这样可以降低泄露的风险。虽然你可以询问大规模的问题，但是返回结果可能会受到限制，以保护核心技术和数据。

另外，设置一层网关并进行关键词拦截是一个有效的措施。通过在网关上设置关键词拦截功能，可以阻止包含敏感信息或公司核心技术的数据传递到外部。

创作场景

AIGC 应用与风险控制，你们先探索，我们紧随其后｜ArchSummit 闭门会

精彩分享 1

精彩分享 2

精彩分享 3

精彩分享 4

精彩分享 5

精彩分享 6

精彩分享 7

创作场景

AIGC 应用与风险控制，你们先探索，我们紧随其后 ｜ArchSummit 闭门会

精彩分享 1

精彩分享 2

精彩分享 3

精彩分享 4

精彩分享 5

精彩分享 6

精彩分享 7

AIGC 应用与风险控制，你们先探索，我们紧随其后｜ArchSummit 闭门会