
在 Snowflake 年度技术盛会 Build 的第三天,Snowflake 产品副总裁 Chris Child 发表了题为《从数据采集到 AI 就绪的数据工程》主题演讲。本次演讲的主旨非常明确:没有数据战略,就没有真正的 AI 战略。演讲通过一系列技术演示和深度论述,阐述了数据工程师如何利用 Snowflake 的端到端平台,将原始数据转化为能够支撑 AI 成功的坚实基础。
核心挑战:AI 成功的隐形门槛
Chris Child 在演讲开场直击痛点。他指出,尽管当前企业在 AI 领域投入了巨大的精力和资源,但由于缺乏正确的基础,许多项目最终面临失败。当 AI 应用无法达到预期时,企业管理层往往会转而向数据工程团队寻求解决方案。
演讲强调,AI 的成功高度依赖于一个“值得信赖且易于使用”的数据基础。这个基础必须能够清晰回答三个核心问题:数据存储在哪里?谁拥有访问权限?数据可以用来做什么?Snowflake 的使命即是帮助成千上万的客户构建这一基础,并使其具备处理不同规模、不同复杂性的能力。
统一基础:消除孤岛与开放生态
演讲的第一部分聚焦于如何构建统一的数据基础,重点介绍了 Snowflake 在数据存储和管理上的关键进展。
数据的整合与分类: 成功的 AI 始于将所有类型的数据,无论是结构化、半结构化还是非结构化数据,存储并分类在一个统一的平台中。这不仅是为了便于访问,更是为了后续的治理。
对 Apache Iceberg 的拥抱: 此次分享重点提到了 Snowflake 对 Apache Iceberg 的支持。通过开放的标准,客户可以在不牺牲性能和治理的前提下,保持数据的开放性。演讲中展示了如何通过 Polaris Catalog(一个支持 Iceberg 的开源目录)实现跨平台的数据交互。这意味着数据工程师可以在保持架构灵活性的同时,利用 Snowflake 强大的引擎进行数据处理。
数据管道的现代化:动态表与 Snowpark
数据工程师的核心价值在于构建管道。演讲详细展示了 Snowflake 如何通过简化管道的构建和操作,提升工程师的生产力。
动态表(Dynamic Tables)的进化: 这是演讲中被多次提及的重头戏。动态表通过声明式的数据转换,极大地降低了数据流的维护难度。工程师不再需要手动管理复杂的依赖和调度,Snowflake 会自动处理数据的增量更新。此外,演讲还展示了“动态表观察器”(Dynamic Tables Observer),这一工具让工程师能够直观地看到管道的运行状态和性能表现。
Snowpark 与多语言支持: 演讲通过演示展示了 Snowpark 的强大能力。它允许工程师在 Snowflake 的安全环境中直接使用 Python 等语言编写逻辑。这对于 AI 预处理尤为重要,因为它避免了将大规模数据导出到外部环境进行处理的风险。
Serverless(无服务器)任务: 为了让工程师更专注于业务逻辑而非基础设施调优,Snowflake 展示了其无服务器的任务管理系统,能够根据负载自动缩放,确保管道的高效运行。
迈向 AI 就绪:非结构化数据与语义理解
在 AI 时代,仅仅有数据是不够的,数据必须变成“AI 就绪”状态。演讲重点演示了如何处理占企业数据量绝大部分的非结构化数据(如 PDF、文档等)。
AI 函数的内置化: 通过 Snowflake Cortex,数据工程师可以在 SQL 中直接调用高级模型。演示环节展示了如何利用 Cortex 中的提取函数(Extract)从非结构化文档中抓取关键元数据,并将其存入结构化表中。
向量支持与相似度搜索: 这是实现 RAG(检索增强生成)的关键。Snowflake 现在原生支持向量(Vector)数据类型。演示者展示了如何将文档分块、生成向量嵌入(Embeddings),并直接在 Snowflake 内部利用向量搜索函数寻找最相关的上下文。这一过程完全在 Snowflake 的治理边界内完成,保证了数据的安全性。
大模型推理的直接调用: Vino 在演示中展示了如何在 SQL 流水线中调用 SNOWFLAKE.CORTEX.COMPLETE 函数,直接对处理后的数据进行摘要生成、分类或情感分析。这种“模型寻找数据”的架构,极大缩短了 AI 应用的开发周期。
软件工程实践与可观测性
演讲的一个重要观点是:数据工程应当借鉴成熟的软件工程实践。
Snowflake Workspaces(演示中的无名英雄): Vino 强调了 Workspaces 在提升工程效率方面的作用。它提供了一个集成环境,支持 Git 集成、分支管理和版本控制。这使得数据管道的开发能够像软件代码一样被严格管理。
可观测性(Observability): 为了确保 AI 所依赖的数据是可信的,Snowflake 增强了日志(Logging)和追踪(Tracing)功能。演讲展示了如何利用这些工具监控管道性能,甚至通过 AI 分析日志来快速定位错误原因,从而维持管道的健壮性。
数据工程师的使命
在演讲的最后,Chris Child 与 Vino 共同总结了本次主题分享的核心逻辑:
拥抱软件工程最佳实践: 提倡使用版本控制和结构化开发流,减少工程中的混乱;
发挥平台整合优势: 利用动态表、Snowpark 和 Cortex AI 函数的无缝集成,简化从原始数据到 AI 产出的路径;
数据工程师的关键角色: 在每一个成功的 AI 项目中,数据工程师都是不可或缺的幕后英雄。
本场分享向开发者展示了一个清晰的蓝图:Snowflake 正致力于提供一个从摄取、转换、治理到 AI 推理的全栈平台。对于数据工程师而言,这意味着工具链的简化和能力的边界扩张。正如 Chris 所总结的,Snowflake 的承诺是简化从原始数据到 AI 驱动成果的整个过程,助力每一位开发者在数据的基础上构建出令人惊叹的 AI 体验。
点击链接立即报名注册:Ascent - Snowflake Platform Training - China







评论