
演讲嘉宾|杨扬
编辑|Kitty
策划|QCon 全球软件开发大会
随着大语言模型迈向 Agentic AI,企业在从功能验证到规模化落地的过程中,面临安全、效率与信任等多重挑战。没有坚实的数据基座与系统化的工程方法,AI 难以真正转化为业务智能。 Snowflake 亚太及日本地区解决方案工程副总裁杨扬在 2025 QCon 全球软件开发大会(上海站)分享了通过 Snowflake 的研发实现企业级 Agentic AI 的部署,从而重塑智能生产力,实现从“大模型”到“可控智能体”的跃迁。
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。
如今,AI 大语言模型和 Agentic AI 成为热门话题,然而从功能验证到企业级实施,仍是一条漫长且充满挑战的道路。今天,我将与大家分享我们是如何通过 Snowflake 的研发实现企业级 Agentic AI 的部署,从而重塑智能生产力的。
Snowflake 是一家成立于 13 年前的公司,基于公有云构建了一个完整的数据和 AI 平台。我们致力于帮助客户处理各种不同类型的数据,支持多种语言进行开发和数据建模,并为商业用户提供数据工程、数据分析、AI 以及数据共享方面的应用。目前,我们在全球拥有超过 12,000 个企业级客户,其中超过 50% 的客户使用了我们的 AI 功能和产品。众多财富 2,000 强公司也在使用我们的解决方案,而且我们最近还被提名为 2025 年财富未来 50 强的第一名。
接下来,我将从五个方面分享 Snowflake 在 AI 研发中的支柱,这些支柱如何支撑我们的研发工作,并为客户带来最大价值。首先,企业级 Agentic AI 的部署需要一个智能的编排与工具使用系统。该系统能够在不同环境中串联各种工具,将任务分配到不同的工具中,从而准确、安全地读取结构化和非结构化数据。在实现不同类型数据的处理、读取和分析后,我们需要为企业级用户提供可观测性和信心。因为在企业级 AI 部署中,用户的信心至关重要。最后,我们还要考虑系统优化,在实现各种功能、处理不同数据后,如何达到高效的效果,使企业能够使用 AI 并将成本控制在可控范围内。
核心支柱一:智能体编排
第一个话题——智能编排。首先,我想请大家思考一个问题:中国的高铁系统为何是世界最先进的?仅仅是因为速度快吗?其实并非如此。尽管上海的磁悬浮列车速度更快,但高铁之所以领先,是因为它拥有一个广阔的网络系统,如四横四纵、八横八纵的布局,以及强大的中央控制系统。正是这种系统让乘客能够安全、高效地到达目的地。因此,速度并非唯一关键,一个安全高效的中央控制系统和编排系统才是实现最终目标的关键。
在 Snowflake 的 AI 研发中,第一个支柱就是智能编排。在企业级 Agentic AI 部署中,我们常常面临一个挑战:各种工具分布在不同的系统中,即使在同一平台内,也存在多种功能供开发人员调用。这就需要一个智能体,能够自动拆分任务,规划任务的执行过程,并将其发送到相应的工具中执行。在执行过程中,用户会持续提供信息、追问问题,而智能编排系统则能够优化和调整执行计划。在 Snowflake 平台上,我们提供了多种工具和功能,如 Cortex Analyst 和 Cortex Search 等。在这些工具之上,我们的智能编排系统可以自动拆分用户的需求,并将其发送到不同的工具中去。
让我举一个例子来说明这个过程。假设在一个用户终端,用户发送了一个请求,比如“为什么 4 月 5 号我们的仪表盘数据出现了下降?”这是一个非常简单的问题,但我们的智能编排系统会将这个任务进行拆分,通过多级推理将其分解为几个部分。首先,系统会确认仪表盘数据的内容,判断它是否真的出现了下降,并查看其正常水平以及 4 月 5 号的具体数值。接着,系统会将日期作为一个关键因素进行分析,最终得出结论:4 月 5 号数据下降是因为那天是周末,业务流量较小。虽然这只是一个简单示例,但在企业实际使用场景中,许多问题都需要分解为多个步骤,并分配到不同任务中去解决。
在我们的 Snowflake 平台上,各种工具通过智能编排系统接收任务,这要求系统具备高度的可扩展性。因为今天的应用场景可能是商业运营,明天可能就会转向医疗领域,智能编排系统是否能够灵活扩展、无缝连接到其他系统,是我们研发过程中必须考虑的关键问题。
这其实也是我们研发理念的一部分。我们团队曾发表过一篇学术论文,扫描二维码可以阅读其内容,这篇论文展示了智能编排系统的可扩展性。在论文中,我们通过一个医疗诊断的例子来说明这一点:通过与智能编排系统的整合,阿尔茨海默病的预测准确率被提高到了 93.26%。这种整合是无缝衔接的,这不仅验证了我们系统的灵活性,也展示了它在不同领域应用的潜力。
核心支柱二:结构化数据智能
现在,我们进入第二个支柱。在这里,我想再给大家提个问题:有多少人经常去超市购物呢?通常,我们会从配偶或父母那里拿到一张购物清单,然后去超市采购。这对我来说是家常便饭。购物本身其实很简单,但让我感到焦虑的是,每次进入超市后,我该如何从长长的购物清单中找到自己想买的东西?又该如何避免把一桶两公斤的食用油从超市入口一直扛到出口呢?很多时候,在进行查询时,任务的难点并不在于找到数据或获取数据,而在于如何找到最优的路径来获取我们需要的东西。这便引出了我们的第二个重点:结构化数据的智能驱动。
如今,生成 SQL 语句对每一个大模型来说都已是轻而易举的事情。但在企业级环境中,如何正确解读那些并不完全清晰的用户提问?如何在海量数据库中,在复杂的数据库编排系统里找到准确的数据,并进行验证和问题澄清?这是我们研发团队推动的一项创新,我们将其命名为 ReFoRCE,这是一个 Agentic 系统。它可以通过一系列自动化操作对数据库的 Schema 进行压缩和优化,并通过一个自动投票系统对比不同生成的 SQL 执行结果,最终达到最优效果。
让我再举个例子来解释我们的 ReFoRCE 机制是如何执行的。假设现在有一个问题:它要求找到某个特定的港口,这个港口位于美国大西洋盆地的某个特定地点,并且该港口的热带风暴风速要超过一定数值,同时编码不能是“no name”。我们需要找到这个特定港口的名称。当 Snowflake 的 ReFoRCE 机制接收到这样的询问后,它会先将其拆分,提取关键细节,比如需要查询的元数据、涉及哪些表格和列。然后,系统会自动生成关于这些表格和列的描述,并基于这些信息生成一些候选 SQL 语句进行执行和对比。有些初步生成的 SQL 可能会失败,但这没关系。我们会进入下一步,即 column exploration,我们会去探索数据库中哪些列与提出的需求相关,并通过一系列拓展和对比,最终找到正确答案。虽然大家可能觉得结构化语言查询很简单,无非是生成一个 SQL 并执行,但实际上,快速、安全、有效地找到所需的表和列,并进行多方面对比以达到最优效果,这里面蕴含了许多创新。
通过 ReFoRCE 机制,我们可以将 SQL 执行效率提高超过 20%。PPT 右边的 Spider Lite 是一个业界公认的用于评测 Text-to-SQL 精准度的基准。在最近一次(9 月底)的排名中,我们位列第二,仅次于清华大学的一项研究成果。
AT&T 案例研究: 推动 Text2SQL 进阶
我们以 AT&T 为例,探讨其如何利用 Snowflake 及其他工具部署企业级的 Text-to-SQL 解决方案。AT&T 是我们全球的一个重要客户,其应用场景极具代表性。
首先,AT&T 是一家拥有超过 14 万名员工的大型电信公司,其中超过 10 万名员工通过 AI 部署显著提升了工作效率。公司已经部署了超过 90 个微调的小语言模型和 410 个智能工作单元,每天的 AI API 调用量超过 4.5 亿次。此外,其生产环境中的 RAG 应用已部署超过 71 个。仅从代码编程效率提升这一维度来看,AT&T 已经实现了 20% 的效率提升。这表明,对于超大型企业而言,AI 的应用能够极大地提升企业运营和业务性能。
在部署 Text-to-SQL 时,AT&T 采取了多管齐下的策略。他们提出了 9 个关键点,但其中许多优化工作集中在数据库层面,而非单纯的大型语言模型。首先,他们对数据进行画像,快速、自动且高效地生成元数据描述。此外,他们还对数据库 Schema 进行去重、连接,并验证多重执行结果的一致性。这些措施不仅优化了数据库结构,还显著降低了 AI 使用过程中的 Token 消耗。
具体来说,AT&T 在数据库优化方面取得了显著成效。例如,在进行 Schema 去重之前,他们的 Token 消耗量约为 700 万,而通过优化后,这一数字降至 15.6 万。这一优化带来的收益是巨大的。以时间序列数据库为例,原始设计中每天的数据存储在一个新表中,这导致用户查询跨多个时间区域时需要读取多个表并进行 join 或 union 操作,从而消耗大量 Token。为了解决这一问题,AT&T 将时间序列数据库中的每日表合并为每月或每季度一个表,这一简单操作极大地提升了效率。此外,AT&T 还对数据库的语义信息进行了压缩。他们将表名、列名、列类型及其描述进行向量化处理,使得 AI 在搜索时可以直接在向量数据库中查询相似度,从而更快速地找到对应的数据库数据。
我们发布的 ReFoRCE 机制也通过学术论文的形式展示了其创新性和实用性。大家可以通过扫描二维码详细阅读该论文。
核心支柱三:非结构化数据智能
接下来,我想谈谈第三个关键支柱——非结构化数据。在企业级 Agentic AI 部署中,如何高效地获取非结构化数据是一个重要问题。非结构化数据的关键在于最大限度地避免大模型产生幻觉。在日常生活中使用 AI 时,偶尔出现的幻觉可能影响不大,但在企业级应用中,幻觉可能导致灾难性的后果。
为了解决这一问题,我们 Snowflake 的研发团队提出了一种新的模式,我们称之为 VerDICT,即 Verified DIversification with ConsolidaTion。在所有大模型中,解读问题时通常会进行多元化处理,从多个不同角度理解用户提出的问题,然后再生成答案。这虽然是大模型的一个优势,但在企业级应用环境中,我们需要对每一步多元化解读进行验证。
首先,我们引入了 Retriever: relevance feedback 机制。当用户提出一个问题后,我们的软件会核实问题中需要读取的数据以及对问题的解读是否准确。例如,在下图例子中,用户问了一个简单的问题:“什么是 HP?”大模型可能会解释为 HP 是一家科技公司,也可能会解释为“哈利·波特”或马力(Horse Power)等等。但在企业级应用环境中,通过 Retriever: relevance feedback 机制,我们可以迅速排除“哈利·波特”这一无关选项,因为它与企业的应用场景无关。
其次,我们还设计了 Generator: answerability feedback 机制。即使大模型只读取相关数据,而不是基于互联网知识或自我想象,它生成的答案是否直接回答了问题仍需验证。以同样的例子为例,如果用户问“什么是 HP”,即使大模型找到了与 HP 相关的文档,但生成的结果却详细描述了某一型号的 HP 产品,这显然没有直接回答问题。通过这一步骤,我们又排除了那些低回答性的答案。
通过这种双重验证的 VerDICT 机制,我们显著提升了基于非结构化数据的大模型处理结果的精准度。在应用 VerDICT 机制后,我们的精准度达到了 93%,远远超过了使用 Llama 3.3 或 GPT-4 处理非结构化数据的结果。即使与人工处理的结果相比,我们的精准度也远高于人工的 65%。
核心支柱四:可追溯性与可信度
接下来,核心支柱四,我们探讨 AI 的可追溯性与可信度。也就是说,我们是否能够正确地追溯 AI 的执行过程,并对其产生信任?让我用一个简单的例子来说明:当我们去看医生,抱怨肩膀疼痛时,医生可能会给出各种建议,比如开药、手术或进行力量训练。然而,我们如何信任这位医生?我们如何知道他的推理过程是基于科学而非随意猜测?他的资质是否可靠?他的建议是否合法合规?这些问题同样适用于企业级 Agentic AI 的部署。
在企业级环境中,我们需要考虑多个方面:准确性(Accuracy),即 AI 给出的答案是否精准;有效性(Effectiveness),即答案是否能在可接受的时间范围内提供,并且是否能将成本控制在合理范围内;最后是信任(Trust),这至关重要。尽管大模型带来了创新和效率提升,但如果其不满足合规性或道德标准,就无法在企业级环境中应用。
那么,Snowflake 的解决方案是什么呢?在准确性方面,我们提供了一个端到端的评估过程。无论任务被拆分到结构化数据查询还是非结构化数据查询,我们都能将每一步的执行结果完整地展示给开发人员或用户,以便他们进行观测和使用。此外,我们允许用户将同一个问题发送到不同的环境、不同的大模型,甚至是同一个大模型搭配不同的参数设置中,进行明确的对比分析。在可追溯性方面,我们支持 OpenTelemetry 这一开源格式。无论是直接使用 Snowflake 平台,还是在此基础上进行二次开发,整个执行过程都是可追溯且可信的。
虽然是平台设计的一部分,但我们同样建议,在进行企业级安全 AI 部署时,应将内容相关性、基于数据的可靠性和答案相关性准确地呈现给开发人员和用户。当一个问题被提出时,首先需要检测大模型读取的文档或数据是否与问题相关,是否与企业部署环境相匹配。回想一下之前提到的“哈利·波特”例子,生成的结果是否基于实际数据,而非模型的想象?最后,答案是否真正针对问题,而不是答非所问?这些要素都是我们在 AI 的可追溯性和可信度中需要重点关注的部分。
核心支柱五:系统优化
接下来,我们将探讨系统的调优。目前,Agentic AI 的企业级部署已经能够实现任务拆分、高效数据获取、数据分析以及安全管理,用户也能够信任大模型。然而,在企业级部署环境中,是否真正可用还需要从多个角度进行考量。这就好比评价一家餐馆是否优秀,需要综合多个维度:服务响应速度是否足够快?菜品上桌速度如何?以及是否具备合理的吞吐量,能否同时接待多位客人?只有将这些因素综合起来,才能全面评价一家餐馆的水平。同样,在企业级大模型部署时,我们也有三个关键点需要考虑:响应性(Responsive)、结果生成速度(Fast Generation)以及最终的吞吐量(Throughput)。响应性体现在用户与大模型交互时,模型需要多长时间生成第一个 Token。结果生成速度则衡量模型生成完整答案的延迟。而吞吐量则取决于系统能够支持的用户数量,以及在部署大模型后是否超出预算。这三点都至关重要。
目前,行业内关于模型优化的机制主要有两种主流方式:张量并行(Tensor Parallel)和数据并行(Data Parallel)。它们各有优缺点。张量并行在首响应和答案生成方面表现出色,但吞吐量较差。而数据并行则在整体吞吐量上表现优秀,但在首响应和答案生成方面表现不佳。从开发人员的角度来看,我们是否可以将两者结合起来,取长补短呢?遗憾的是,这并不容易实现,因为张量并行和数据并行的 KV 数据布局不同,它们之间无法直接通信。
我们的 Snowflake 研发团队为此开发了一种名为 Arctic Sequence Parallel 的新机制。Arctic Sequence Parallel 能够提高吞吐量,同时保持首响应的高效率,并降低生成延迟。在设计 Arctic Sequence Parallel 时,我们保持了其 KV 数据布局与张量并行的一致性,从而实现了两者的互操作性。我们将这种结合称为 Shift Parallelism,即“可平移的并行机制”。当用户调用系统时,我们可以根据调用的特点(小批量或大批量)实时选择使用张量并行还是 Arctic Sequence Parallel,这种组合方式非常灵活。
最终,这种机制显著提升了推理效率。在测试中,我们的端到端响应效率比传统方法提高了 3.4 倍以上,吞吐量提升了 1.7 倍。如果仅从向量化(embedding)的角度来看,我们的提升更是达到了 16 倍以上。此外,PPT 右下角的第三方测试结果显示,与市面上主流的推理系统相比,我们的系统排名前三。还有一个好消息是,我们的这一技术是开源的。如果大家希望对自己的企业级 AI 部署或产品开发进行优化,我们非常欢迎大家加入开源社区,使用并优化我们的代码。
Snowflake Cortex AI
在介绍了 Snowflake 的五大支柱以及我们的研发成果之后,我想进一步谈谈这些研究成果是如何体现在我们的产品架构中的,以及我们如何通过这些架构帮助大型企业客户部署他们的 Agentic AI。
我们的产品架构首先围绕 AI 功能展开,我们将其命名为 Cortex。Cortex 能够处理各种不同类型的数据,无论是结构化数据、非结构化数据,还是语音、图片、文档等,都可以安全且高效地保存和管理在 Snowflake 的云平台上。我们的治理功能非常全面。我们通过用户角色进行权限管理,而不是单独针对账户或个人进行管理。此外,我们还提供了“护栏”(Guardrails)功能。例如,来自生产部门的用户只能访问特定的大模型,如 LLaMA,而来自研发部门的用户则只能访问 Mistral。这些权限管理通过内部控制机制实现,确保了数据的安全性和合规性。
在 Snowflake 的单一平台上,我们还内置了主流的大模型,包括 OpenAI、Anthropic、Meta、 Mistral、DeepSeek,以及我们自研的大模型 Snowflake Arctic。基于这些模型和我们的安全机制,我们提供了多种工具和功能。其中,Cortex Analyst 和 Cortex Search 是两个独立的功能模块,分别用于处理结构化数据和非结构化数据。开发人员可以直接调用这些工具,也可以通过简单的 SQL 语句进行操作,我们将这一功能称为 AISQL,它能够将结构化数据和非结构化数据进行联合查询。此外,在文档处理方面,基于我们的研发成果,我们提供了一种高效且出色的处理方式。
在架构的最上层,我们提供了一系列 Agent API。如果开发人员希望将你们的产品或应用与 Snowflake 整合,但不想通过我们的界面操作,可以通过 API 调用的方式实现无缝对接。
Snowflake Intelligence 是我们 Agentic AI 部署的核心整合平台。它利用了我们刚才提到的五大支柱和研发成果,能够自动编排用户提出的请求,将任务自动分发到不同的工具集中,并完成上下文保持的优化过程。通过这一平台,我们能够为企业级用户提供高效、安全且可信的 AI 部署解决方案。
实例演示
基于之前的介绍,我将为大家进行一个演示。这个演示的场景是这样的:我目前负责管理一个大型软件工业园的物业管理。园内有众多不同类型的公司和初创团队。当这些团队入驻软件园后,他们可能会发现一些建筑质量问题,比如墙体开裂或漏水。遇到这些问题时,他们会向我反馈,并发送大量照片,指出墙体存在问题。作为软件园的管理方,我需要快速分析这些用户反馈,并做出响应。同时,在内部流程中,我还需要进行预算评估、采购计划以及维修安排。
视频展示了如何利用 Agentic AI 功能来实现这一业务场景。首先,在 Snowflake 平台上,我们可以保存大量的结构化数据,这些数据包含了产品信息以及相关的语义信息,例如表格中包含哪些数据,表格的用途等。此外,对于非结构化数据,我们可以收集大量用户反馈的照片,这些照片展示了墙体的各种问题特征。
以往工作人员需要花费大量时间和精力去阅读这些照片,并由专业人员进行分析。但在 Snowflake 的 Agentic AI 平台上,我们可以将这些上千张照片安全地存储在单一的云平台中,并通过 AI 功能对照片进行解析。从开发人员的角度来看,这一过程非常简单。我只需要编写几行 SQL 语句,在语句中指定使用哪个大模型来处理图片。例如,我可以写这样的语句:“请帮我分析一下图片表,它表达了什么样的建筑质量问题。”通过简单地执行这些 SQL 语句,我们就能得到对图片中建筑质量问题的详细分析结果。
作为开发人员,我可以看到具体的分析结果。基于这些结果,我还可以进一步追问大模型,比如:“请根据你看到的所有问题,从上千张照片中找出出现频率最高的问题,并为我推荐维修产品。”这些操作都可以通过简单的 SQL 语句轻松实现,这就是我们的 AISQL 功能。在执行这些 SQL 语句后,系统可以处理和检索上千张图片,同时结合我们庞大的维修产品数据库和报价数据库,最终得出一个推荐方案。这个方案会明确指出我们需要使用哪些材料进行维修,需要购买哪些产品,以及这些产品的价格。
接下来,我将从商业用户的角度出发,展示在开发完成后,如何在 Snowflake Intelligence 的图形化界面中处理这一业务场景,并得到分析结果。
在商务人员的环节,他们会提出自己的问题,比如:“基于我需要购买的材料,你能否帮我找到合适的供应商?大概需要花费多少钱?如何进行采购?有哪些采购策略可以提高效率并尽量控制成本?”当这些问题在对话框中提交后,回顾我们之前提到的五大机制,这些任务已经在后台被并行拆分。具体来说,任务会被发送到 Cortex Analyst,从数据库中读取产品报价和供应商信息;同时,任务也会被发送到 Cortex Search,对图片信息进行解读,并将这些信息整合在一起,最终提出建议结果。例如:“您提到的产品包括以下这些……”
这一步骤也体现了我们五大支柱中的可追溯性( Observability)。AI 的执行过程需要对用户透明,并详细记录下来,这样才能让用户对企业的 AI 部署充满信心。最终,系统不仅会给出具体的建议,比如“在京东购买这些产品”,还会详细解释为什么选择这些供应商,以及如何优化预算以覆盖更多业主的需求。
如果继续追问,系统会进一步提供推荐理由,包括每种产品需要的数量以及推荐这些产品的依据,比如供应商的库存量或好评度。通过 Snowflake Intelligence,基于我们研发的五大支柱构建的 Agentic AI 环境,商业用户可以方便地将请求发送到不同的数据源,无论是结构化数据还是非结构化数据,所有操作都在一个单一、安全的环境中完成,无需在不同界面或环境中频繁切换。所有数据都保留在 AI 平台上,我们强调“将工作带到数据面前”,而不是“将数据拿出带到工作面前”。因为每次将数据从云环境中移出或复制时,安全风险都会呈指数级增长。整个 AI 的执行过程是可追溯的,用户可以看到推理和执行的全过程。
最终,我们的结果是高效的。例如,处理几千张图片可能只需要一分钟,通过一个 SQL 语句就能完成查询。当然,在实际应用中,我们可以回顾之前提到的 AT&T 案例。作为拥有超过 10 万名员工的大型企业,AT&T 已经在使用 Snowflake 平台,每天的 API 调用次数超过 4.5 亿次。
总结
Snowflake 的研发是基于五大支柱的。在这些支柱之上,我们建议企业在部署企业级 Agentic AI 时,需要考虑几个关键问题。首先,工具集是否具备智能编排系统,能否将任务拆分并进行不同任务之间的调度?其次,是否能够安全高效地处理结构化和非结构化数据?此外,企业级 AI 的部署是否是可观测的、可信任的?最后,它是否具备良好的系统优化,能否在推理过程中满足企业级用户对效率和成本的要求?我的分享就到这里,感谢大家的关注和支持!
演讲嘉宾介绍
杨扬先生现任 Snowflake 亚太及日本地区解决方案工程副总裁,常驻新加坡。他在数据、人工智能和分析领域拥有逾二十年的领导经验。杨扬先生致力于协助亚太地区的客户及合作伙伴充分利用 Snowflake 数据云的优势。他所领导的团队由专业的工程师和现场首席技术官组成,负责推动转型项目并开展全球协作,以提供创新的解决方案。
此前,杨扬先生曾在 Workday、Qlik、Oracle 等知名企业以及多所大学担任高级技术与管理职务。凭借卓越的技术洞察力,他持续为公司创造业务价值,并因此荣获多项行业奖项、总裁俱乐部表彰以及数据仓库、分析和云技术领域的专业认证。
杨扬拥有澳大利亚 Wollongong 大学计算机科学研究硕士学位,是一位备受欢迎的演讲者,以其将深厚技术专长与前瞻性领导力相结合、推动数据驱动创新而闻名。







评论