写点什么

现代化 ML 技术栈:智能体、多模态与实时工作流正式发布 | 技术趋势

  • 2026-02-24
    北京
  • 本文字数:4208 字

    阅读完需:约 14 分钟

2026 年,智能体将在企业级应用中取得哪些实质性突破?点击下载《2026 年 AI 与数据发展预测》白皮书,获悉专家一手前瞻,抢先拥抱新的工作方式!

传统机器学习在当今人工智能领域依然至关重要,其作为预测洞察的核心驱动力,支撑着从供应链优化到实时欺诈检测等关键业务价值的实现。然而,从实验到生产部署的路径依然充满挑战:各生态系统工具碎片化,需要复杂的配置流程、多轮优化迭代以及持续的运维投入。Snowflake 始终致力于打造现代化的机器学习平台,该平台与您的数据深度集成,提供统一的安全保障,并通过可弹性扩展的工作流加速业务价值实现。 

我们很高兴地宣布,以下功能现已在 Snowflake ML 模型工作流中全面上线:

  • 通过基于 Jupyter 的 Snowflake Notebooks 环境(现已正式可用),使用自然语言提示即可自动开发功能完整的 ML 流水线(Cortex Code 功能即将在 Snowsight 中正式开放);

  • 利用原生集成的实验追踪系统(现已正式可用)高效部署最优模型,轻松实现训练过程中的顶级结果识别、共享与复现;

  • 通过在线 Snowflake 特征存储(现已正式可用)与在线 ML 推理服务(现已正式可用)提供毫秒级低延迟预测,为个性化推荐、欺诈检测等实时场景提供支撑;

  • 运行多模态模型推理任务(公开预览阶段),支持图像、音频等非结构化数据的大规模推理计算。

智能体模型开发

在 Snowflake,我们持续投资于现代化开发体验,以提升开发者效率。今日,我们以集成于全新 Snowflake Notebooks 集成开发环境(IDE)的智能体机器学习能力,重新定义生产级机器学习流程。

Cortex Code 机器学习管道功能

数据科学家常需耗费大量周期开发与排查机器学习工作流,导致运营瓶颈,并使更少模型能够成功部署至生产环境。现在,Snowflake 将智能体人工智能引入机器学习工作流——通过 Snowsight 中的 Cortex Code(即将全面上市),用户可在 Snowflake Notebooks 中仅凭简单自然语言指令,即可让智能体自主迭代、调整并生成完全可执行的机器学习管道。

图 1:Cortex Code 通过简易自然语言提示,实现机器学习工作流自动化

 

Cortex Code 将机器学习工作流中的各类问题拆解为独立步骤,包括数据分析、数据准备、特征工程与模型训练等。该工具融合多步推理、上下文理解与行动执行等先进技术,为用户提供经过验证的解决方案——即开即用的完整机器学习流水线,并可直接在 Snowflake Notebook 中执行。通过系统推荐的优化建议或用户提供的后续指令,Cortex Code 能够协助用户快速迭代至更优版本。借助此项自动化技术,数据科学团队得以从繁复的实验调试工作中解放,节省大量时间,从而更专注于高价值任务。

Snowflake Notebooks

Cortex 代码可直接通过 Snowflake Notebooks 进行集成,用于构建和迭代生产工作流。Snowflake Notebooks 的下一代开发功能现已在 Workspaces 全面开放。依托这些基于 Jupyter 的笔记本,您可以将现有笔记本、脚本和模型训练无缝迁移至 Snowflake 统一平台,同时保留您偏爱的库、Jupyter 运行时特性、熟悉的 IDE 特性以及 Workspaces 内基于文件的组织结构。

Screenshot of Snowflake Notebooks

 图 2:在 Snowflake Notebooks 中强化您的数据科学与高级模型开发工作流

 

此次全新开发体验包含以下增强功能:

托管的 Jupyter/IPython 内核:Notebook 现运行于 Snowflake 托管的 Jupyter/IPython 内核上,确保与各类魔术命令及现有 Notebook 的兼容性。支持 SQL、Python 和 Markdown 代码执行,并实现跨单元数据无缝流转。执行结果将展示于每个单元下方的结果浏览器中,提供数据表与可视化构建工具。

工作空间原生组织架构:现在可直接在工作空间内创建 Notebook,与 SQL 文件、dbt 项目、Python 工具集及其他 Snowflake 开发资产协同管理。您可将所有资源集中组织,使多文件工作流自然顺畅。支持将逻辑重构为辅助模块,将流程拆分为细粒度组件,并按需进行组合编排。全新的终端和变量浏览器进一步加速开发迭代,提升工作效率。

无缝 Git 协作支持:采用 Git 版本控制的工作空间现支持跨代码仓库无缝协作——您可直接在 Snowflake 平台进行分支管理、提交代码和差异比对。若 Git 非首选工作流,共享工作空间为团队提供替代方案:通过基于角色的访问控制机制,在具备内置版本管理与变更追踪的文件集合上进行协作。

支持 Snowflake 容器运行时(CPU 与 GPU):新开发环境专为 Snowflake 容器运行时打造,该预置环境专为数据科学与机器学习任务构建,直接运行于 Snowpark 容器服务之上。其提供多版本 Python 支持及主流机器学习框架,通过分布式计算资源加速训练与数据加载流程。开发阶段使用的运行时版本与后续调度部署版本完全一致,彻底杜绝“本地运行正常但部署失败”的典型问题。

全球领先的数据与人工智能咨询公司 Aimpoint Digital 等企业正在采用 Snowflake Notebooks 推动面向生产就绪的开发工作流。

 

Aimpoint Digital 公司 Snowflake 实践负责人 Christopher Marland 认为:“Snowflake Notebooks 的正式发布是开发者体验的革命性时刻。我们已能轻松为客户开发并投产从动态定价到基于图谱的用户行为预测等各类机器学习工作负载。在 Workspaces 中基于 Notebooks 进行开发,使我们既能集中管理通用代码,又能支持开发者在此基础上进行分布式构建。能够通过 Python 引用 SQL 单元、反之亦然,并对 Notebooks 实现参数化配置,这无疑是一次范式转变。传统调度存储过程的方式已成为过去,Notebooks 为机器学习、人工智能或工程领域的动态工作流提供了无与伦比的灵活性。”

 

若想开始使用 Snowflake Notebooks,可尝试此主题建模快速入门指南

实验追踪

在使用 Snowflake Notebooks 和 Cortex Code 完成模型构建与迭代后,您可通过原生集成的实验跟踪功能(现已正式发布),快速从初始假设推进到高性能模型。该功能使机器学习团队能够系统化地识别、共享并复现不同训练轮次中的最佳表现模型,从而简化协作流程、提升实验可复现性,并加速企业级模型迭代进程。最新发布的 Snowflake 实验跟踪功能支持无缝记录大规模训练过程中产生的数百万条指标,同时完整保存模型参数、产出文件及相关元数据。

Real-time feature and model serving enables low-latency predictions in milliseconds.

 图 3:通过原生集成的实验跟踪功能,可轻松识别最优模型,并对不同版本进行可视化比较

 

众多企业正在采用实验跟踪来存储、追踪和比较模型训练过程中的关键信息,能源科技企业 EnergyHub 便是其中之一——该公司致力于推动公用事业机构与其客户共同构建清洁、分布式的能源未来。

 

EnergyHub 首席机器学习科学家 Dr. Wiliam Franklin 认为:“作为 Snowflake 实验跟踪功能的早期使用者,我们发现该功能完全满足需求,同时免除了维护独立 MLFlow 服务器的繁琐工作。将机器学习实验跟踪整合至我们现有的 Snowflake 平台内,是重要的运维成果。此外,Snowflake 对用户反馈响应极为迅速,功能迭代速度令人印象深刻。”

实时模型服务

当您在 Snowflake 或其他外部平台完成模型训练后,可以轻松将其部署在 Snowflake 数据上进行推理,以生成预测结果。我们正在推出全面可用的新型生产级在线机器学习功能,以支持实时用例,例如个性化推荐与欺诈检测——无需额外的基础设施或复杂配置。通过将批处理与在线机器学习用例统一在单一平台上,开发者现可消除因将敏感数据导出至外部平台而产生的延迟、成本及安全风险。

Easily identify the best-performing model to visualize and compare model versions with natively integrated Experiment Tracking.

图 4:实时特征与模型服务可实现毫秒级低延迟预测

Snowflake 特征存储

我们很高兴地宣布,Snowflake 特征存储现已全面推出在线特征服务功能。Snowflake 特征存储是一套为数据科学家和机器学习工程师打造的集成化解决方案,用于创建、存储、管理与服务机器学习特征,以支持模型训练与推理。该平台提供 Python API 及 SQL 接口,用于特征定义、管理与检索,并配备用于特征元数据管理与持续特征处理的托管基础设施。凭借在线特征服务能力,Snowflake 特征存储可作为批处理与低延迟在线用例的统一解决方案,在 30 毫秒内完成特征服务。

Snowflake 特征存储与您的 Snowflake 数据、特征及模型无缝集成,使大规模机器学习流水线能够轻松高效地投入生产。这消除了特征流水线的冗余与重复,确保客户能够获得具备企业级安全与治理能力的一致、更新及时且准确的特征。Snowflake 用户界面 Snowsight 中集成的特征存储服务集中化管理界面,便于用户搜索与发现特征及模型,并通过数据血缘关系可视化数据流转过程。

您可以通过此快速入门指南,立即开始使用 Snowflake 特征存储的在线特征服务功能。

在线机器学习推理

在线机器学习推理现已全面开放,支持从 Snowflake 模型注册表调用模型进行实时推理,响应延迟低于 100 毫秒。

为满足生产环境的严苛要求,在线机器学习推理将智能自动扩缩容、低延迟性能与全景可观测性融合为一体化工作流。该系统以实现高性价比为首要目标:我们的自动扩缩容逻辑可即时处理海量流量峰值,并在需求下降时缩容至零,彻底消除了 GPU 资源过度配置带来的高昂成本。关键在于,当流量再次攀升时,系统设计可立即响应,确保模型快速扩容以维持低于 100 毫秒的性能表现。

部署机制同样具备强韧性,用户可通过自动滚动更新切换至新模型版本,保障应用流量持续不中断,并支持安全的版本回滚功能。团队还可利用影子模式,在独立于生产环境的并行系统中监控新模型性能,实现安全验证后再进行完整切换。Snowflake 还提供开箱即用的可观测能力,将延迟、吞吐量和错误率等指标直接记录至 Snowflake 数据表,便于深度调试与长期审计。

针对多模态模型的推理

随着 Snowflake 对开源多模态模型推理支持的推出,如今在 Hugging Face 等模型中心的大规模在线及批量推理已变得简单易行。针对非结构化数据的推理支持目前已进入公开预览阶段,涵盖图像、视频和音频等多种数据类型。这一能力无需复杂流程或数据迁移,即可在 Snowflake 平台上解锁目标检测、视觉问答、自动语音识别等人工智能用例。

Snowflake 同时满足实时与批量处理需求:用户可通过 REST API 将多模态模型部署为在线推理服务,也可将其注册至 Snowflake 模型库以支持即时批量调用。借助 Snowflake 分布式计算层,团队可在熟悉的环境中直接对海量数据集执行大规模推理任务。

快速入门

借助智能体、在线与多模态能力领域的最新创新,Snowflake ML 将进一步加速您的机器学习进程,助力实现从原型验证到生产部署的全流程一体化管理,全部在统一的数据平台上完成。

欢迎查阅我们的产品文档,并通过 30 天免费试用指南即刻开启 Snowflake ML 的体验之旅。

原文地址:https://www.snowflake.com/en/blog/production-ml-workflows/

点击链接立即报名注册:Ascent - Snowflake Platform Training - China更多 Snowflake 精彩活动请关注专区