写点什么

筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革

  • 2025-12-18
    北京
  • 本文字数:2135 字

    阅读完需:约 7 分钟

大小:1.04M时长:06:02
筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革

在 Snowflake 年度技术盛会 Build 的第三天,Snowflake 产品副总裁 Chris Child 发表了题为《从数据采集到 AI 就绪的数据工程》主题演讲。本次演讲的主旨非常明确:没有数据战略,就没有真正的 AI 战略。演讲通过一系列技术演示和深度论述,阐述了数据工程师如何利用 Snowflake 的端到端平台,将原始数据转化为能够支撑 AI 成功的坚实基础。

核心挑战:AI 成功的隐形门槛


Chris Child 在演讲开场直击痛点。他指出,尽管当前企业在 AI 领域投入了巨大的精力和资源,但由于缺乏正确的基础,许多项目最终面临失败。当 AI 应用无法达到预期时,企业管理层往往会转而向数据工程团队寻求解决方案。


演讲强调,AI 的成功高度依赖于一个“值得信赖且易于使用”的数据基础。这个基础必须能够清晰回答三个核心问题:数据存储在哪里?谁拥有访问权限?数据可以用来做什么?Snowflake 的使命即是帮助成千上万的客户构建这一基础,并使其具备处理不同规模、不同复杂性的能力。

统一基础:消除孤岛与开放生态


演讲的第一部分聚焦于如何构建统一的数据基础,重点介绍了 Snowflake 在数据存储和管理上的关键进展。


  • 数据的整合与分类: 成功的 AI 始于将所有类型的数据,无论是结构化、半结构化还是非结构化数据,存储并分类在一个统一的平台中。这不仅是为了便于访问,更是为了后续的治理。


  • 对 Apache Iceberg 的拥抱: 此次分享重点提到了 Snowflake 对 Apache Iceberg 的支持。通过开放的标准,客户可以在不牺牲性能和治理的前提下,保持数据的开放性。演讲中展示了如何通过 Polaris Catalog(一个支持 Iceberg 的开源目录)实现跨平台的数据交互。这意味着数据工程师可以在保持架构灵活性的同时,利用 Snowflake 强大的引擎进行数据处理。

数据管道的现代化:动态表与 Snowpark


数据工程师的核心价值在于构建管道。演讲详细展示了 Snowflake 如何通过简化管道的构建和操作,提升工程师的生产力。


  • 动态表(Dynamic Tables)的进化: 这是演讲中被多次提及的重头戏。动态表通过声明式的数据转换,极大地降低了数据流的维护难度。工程师不再需要手动管理复杂的依赖和调度,Snowflake 会自动处理数据的增量更新。此外,演讲还展示了“动态表观察器”(Dynamic Tables Observer),这一工具让工程师能够直观地看到管道的运行状态和性能表现。


  • Snowpark 与多语言支持: 演讲通过演示展示了 Snowpark 的强大能力。它允许工程师在 Snowflake 的安全环境中直接使用 Python 等语言编写逻辑。这对于 AI 预处理尤为重要,因为它避免了将大规模数据导出到外部环境进行处理的风险。


  • Serverless(无服务器)任务: 为了让工程师更专注于业务逻辑而非基础设施调优,Snowflake 展示了其无服务器的任务管理系统,能够根据负载自动缩放,确保管道的高效运行。

迈向 AI 就绪:非结构化数据与语义理解


在 AI 时代,仅仅有数据是不够的,数据必须变成“AI 就绪”状态。演讲重点演示了如何处理占企业数据量绝大部分的非结构化数据(如 PDF、文档等)。


  • AI 函数的内置化: 通过 Snowflake Cortex,数据工程师可以在 SQL 中直接调用高级模型。演示环节展示了如何利用 Cortex 中的提取函数(Extract)从非结构化文档中抓取关键元数据,并将其存入结构化表中。


  • 向量支持与相似度搜索: 这是实现 RAG(检索增强生成)的关键。Snowflake 现在原生支持向量(Vector)数据类型。演示者展示了如何将文档分块、生成向量嵌入(Embeddings),并直接在 Snowflake 内部利用向量搜索函数寻找最相关的上下文。这一过程完全在 Snowflake 的治理边界内完成,保证了数据的安全性。


  • 大模型推理的直接调用: Vino 在演示中展示了如何在 SQL 流水线中调用 SNOWFLAKE.CORTEX.COMPLETE 函数,直接对处理后的数据进行摘要生成、分类或情感分析。这种“模型寻找数据”的架构,极大缩短了 AI 应用的开发周期。

软件工程实践与可观测性


演讲的一个重要观点是:数据工程应当借鉴成熟的软件工程实践。


  • Snowflake Workspaces(演示中的无名英雄): Vino 强调了 Workspaces 在提升工程效率方面的作用。它提供了一个集成环境,支持 Git 集成、分支管理和版本控制。这使得数据管道的开发能够像软件代码一样被严格管理。


  • 可观测性(Observability): 为了确保 AI 所依赖的数据是可信的,Snowflake 增强了日志(Logging)和追踪(Tracing)功能。演讲展示了如何利用这些工具监控管道性能,甚至通过 AI 分析日志来快速定位错误原因,从而维持管道的健壮性。

数据工程师的使命


在演讲的最后,Chris Child 与 Vino 共同总结了本次主题分享的核心逻辑:

  • 拥抱软件工程最佳实践: 提倡使用版本控制和结构化开发流,减少工程中的混乱;

  • 发挥平台整合优势: 利用动态表、Snowpark 和 Cortex AI 函数的无缝集成,简化从原始数据到 AI 产出的路径;

  • 数据工程师的关键角色: 在每一个成功的 AI 项目中,数据工程师都是不可或缺的幕后英雄。


本场分享向开发者展示了一个清晰的蓝图:Snowflake 正致力于提供一个从摄取、转换、治理到 AI 推理的全栈平台。对于数据工程师而言,这意味着工具链的简化和能力的边界扩张。正如 Chris 所总结的,Snowflake 的承诺是简化从原始数据到 AI 驱动成果的整个过程,助力每一位开发者在数据的基础上构建出令人惊叹的 AI 体验。



点击链接立即报名注册:Ascent - Snowflake Platform Training - China

2025-12-18 11:2810

评论

发布
暂无评论
发现更多内容

LR性能测试常见问题及处理方法(三)

性能测试 问题排查 LoadRunner

架构训练营-模块五作业

Sam

架构实战营

SpringBoot集成Tomcat服务

Java 架构

LR性能测试常见问题及处理方法(四)

性能测试 问题排查 LoadRunner 云性能测试

osx使用alfred集成有道查词

Geek_pwdeic

macos Alfred 有道

火山引擎DataTester:在广告投放场景下的A/B实验实践

字节跳动数据平台

大数据 AB testing实战 企业号 2 月 PK 榜

借力英特尔® Smart Edge,灵雀云 ACP 5G 专网解决方案获得多维度优化加速

York

云原生 5G 系统架构 边缘计算 英特尔

前端面试指南之JS面试题总结

loveX001

JavaScript

企业微信的聊天机器人来了!免费下载,Python自动化办公

程序员晚枫

Python 聊天机器人 企业微信

2023前端二面经典面试题汇总

loveX001

JavaScript

LR性能测试常见问题及处理方法(五)

性能测试 问题排查 LoadRunner 云性能测试

LR性能测试常见问题及处理方法(六)

性能测试 问题排查 LoadRunner 云性能测试

立即执行函数在前端国际化方案中的应用

xiaoxi666

2023年1月中国汽车智能网联月度观察

易观分析

汽车 智能网联

广告流量反作弊风控中的模型应用

vivo互联网技术

算法 广告 风控系统

Unittest+Python接口自动化测试如何进行token关联?

Python 自动化测试 unittest Token

ChatGPT:将一个「营销小助手」请回家

FinFish

AI AIGC ChatGPT

2023-02-20:小A认为如果在数组中有一个数出现了至少k次, 且这个数是该数组的众数,即出现次数最多的数之一, 那么这个数组被该数所支配, 显然当k比较大的时候,有些数组不被任何数所支配。 现在

福大大架构师每日一题

算法 rust 福大大

LeetCode题解:2347. 最好的扑克手牌,哈希表,详细注释

Lee Chen

JavaScript 算法 LeetCode 哈希表

不同程序集,名称空间类名和方法签名都一样的方法,如何调用

newbe36524

C# Docker Kubernetes

基于Unittest框架,使用Python+Selenium+Webdriver的WebUI自动化测试项目应用实例(附源码)

Python 单元测试 自动化测试 unittest

飞书与钉钉的真正竞争在这

B Impact

一图读懂 | 2023年中国企业数字化技术应用十大趋势

易观分析

数字化 数字经济

微软 New Bing 和 Edge 动手实践:令人惊讶的 AI 集成度

kcodez

微软 edge 新必应 Copilot

春种一粒粟:企业如何修炼好云原生内功?

脑极体

云原生

架构实战 7 - 王者荣耀商城异地多活设计

架构实战营 「架构实战营」

社招中级前端笔试面试题总结

loveX001

JavaScript

Spark练习题

mm

Sparksql Spark Scala 大数据开发

筑基 AI 战略:从数据采集到 AI 就绪的数据工程变革_Snowflake_王玮_InfoQ精选文章