写点什么

对 Agentic AI 的支撑,快成这家大厂的 OKR 了

骆驼

  • 2025-06-17
    北京
  • 本文字数:3731 字

    阅读完需:约 12 分钟

大小:1.86M时长:10:48
对 Agentic AI 的支撑,快成这家大厂的OKR了

我一直认为,火山引擎是一家比较有气质的云计算企业——思维新颖,动作很快,且打法总是直来直去。


比如说,从 2024 年年底至今,火山引擎已经将 AI 云原生的框架刷新了三次——从以 GPU 为核心,到以模型为核心,再到今天,以 Agentic AI 为核心。在 6 月 11 日的 Force 原动力大会上,火山引擎总裁谭待聊到,在不同的时代里,技术主体也在发生变化,PC 时代的主体是 web,移动时代是 APP,AI 时代是 Agent。


主体发生变化,连带对基础模型和基础设施的选型标准,也会发生变化。但火山的策略非常偏“直给型”——在火山看来,在提供更详细的网络、存储、算力技术参数前,应该先把基础模型的性能提上去,价格降下来。


豆包大模型,又更新了


在沙丘智库对《Practices for Governing Agentic AI Systems》的解读中,Agentic AI 的代理能力被划分为四个维度:


  • 目标复杂性: 目标复杂性是指 AI 系统的目标对于人类来说实现起来的挑战程度,以及系统能够实现的目标范围有多广。

  • 环境复杂性: 环境复杂性是指 AI 系统实现目标时所处环境的复杂程度。

  • 适应性: 适应性是指 AI 系统在面对新的或意外情况时的适应和反应能力。

  • 独立执行: 独立执行是指 AI 系统在实现其目标时,能够在多大程度上可靠地运作,而不需要人类的干预或监督。


相对应的,谭待认为,能够解决以上问题的基础模型,至少要具备三个方向的突出能力:

  1. 深度思考

  2. 多模态

  3. 工具使用


相应地,豆包系列大模型本次的更新重点,是 doubao-seed-1.6,doubao-seed-1.6-thinking 和 doubao-seed-1.6-flash 三个模型。


Doubao-Seed-1.6 是一款功能全面的综合模型,它提供了关闭深度思考、开启深度思考和自适应思考三种模式供用户灵活选择。支持深度思考、多模态理解和图形界面操作等能力。该模型也是国内首个支持 256K 上下文长度的综合模型。


Doubao-Seed-1.6-thinking 有着更强的深度思考能力,在编码、数学、逻辑推理等领域上具备出色的表现,同样支持 256K 长上下文处理。


Doubao-Deed-1.6-flash 服务于对延迟要求更高、对成本更敏感的客户。 模型的 per token 延迟低至 10ms,在如此出色的延迟之下,flash 模型依然具备了强大的视觉理解能力。


从官方数据来看,豆包 1.6 系列的更新并没有做到全部测试的“屠榜”,但在 Agentic AI 方面,位于第一梯队。比如,doubao-seed-1.6-thinking 在 GPQA Diamond(推理能力)和 MultiChallenge(指令执行)榜单上表现都很不错,超越了 DeepSeek-R1-0528。有媒体称,用 doubao-seed-1.6-thinking 针对高考数学全国卷学做了单科评测,豆包 1.6 成绩是 144 分,是国内第一。



此外,基于豆包 1.6 系列模型,豆包 APP 可以实现“边想边搜”和“DeepResearch”。前者的意思是,豆包 1.6 可以结合思维链,进行多轮搜索,使得到的结果质量更高,而不是像过往的推理模型一样,一次性将所有的联网搜索任务执行完;后者则是单独服务于深度研究场景,可以更便捷地给出研究成果。


就深度思考这一维度而言,豆包 1.6 问题不大。


关于多模态和工具使用能力,豆包 1.6 系列的能力也比较强。1.6 系列模型支持了豆包 APP 最新的实时视频通话功能,在企业侧可应用于电商商品审核、自动驾驶标注、安全巡检等场景。1.6 系列模型对 GUI 的操作也十分精准——如果基于豆包 1.6 部署和运行 AI Agent,那么 AI 完全可以代替对不同的网站进行精准检索、信息收集,任务交付的质量更接近真人。


豆包在多模态领域的更新不止于此,最新的豆包视频生成模型 Seedance 1.0 pro 也同时发布了。官方称,Artificial Analysis 最新结果显示,豆包视频生成模型在文生视频、图生视频两个维度超越了业界诸多主流模型,登顶全球竞技场第一。

性能提升了,价格却降低了,低到了一个令人惊讶的区间。


行业的普遍情况是,使用同一个模型完成通用问答任务、推理任务、多模态任务,Token 的价格是不一样的。谭待表示,影响模型成本的关键是输入、输出长度,因此从豆包 1.6 系列开始,无论是推理任务还是多模态任务,价格统一。



豆包 1.6 官方给出的价格是,输入上,每百万 Token 0.8 元到 2.4 元;输出上,每百万 Token 8 元 到 24 元。因输入、输出区间 Token 多寡不同,价格会在几个档位间进行浮动。


这意味着,在输入输出占比为 3:1 的情况下,每百万 Tokens 的综合成本只有 2.6 元,对比豆包 1.5 深度思考模型和 DeepSeek R1 下降了 63%。如果输入在 32K Tokens 以内,输出在 200 Tokens 以内,此价格还会进一步降低,为 0.8 元 / 百万 Tokens(输入)、2 元 / 百万 Tokens(输出)。


按照 OpenAI 和国内主流模型的 Token 换算规则,一百万 Token 大致相当于 150 万汉字左右,也就是说,花上二三十块钱,几乎就能生成一本完整的网络小说,或者重整中小型公司的整个知识库。


考虑到当前 Agentic AI 类任务的输出结果,非常多样化,除视频生成模型外,实时语音模型、语音播客模型也迎来全面更新。


把品类丰富好,性能提升到位,价格降到足够低,火山将这条优化思路,执行的非常彻底。


如何保障 AI Agent 落地生产环境?


当然,仅仅更新基础模型,绝不是火山引擎的风格。在 Force 原动力大会的开场致辞中,梁汝波提到,做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。而火山引擎本质还是一家云计算公司,要保障客户的 AI Agent 可以平滑地落地生产环境。


火山是通过 Agent 开发平台、数据、AI 基础设施、安全等几个不同的维度来做技术保障的。


对于 Agent 开发平台而言,火山的产品体系是国内最完备的——最上层有 TRAE 作为 AI IDE,火山方舟、HiAgent、扣子、PromptPilot 可以在各个维度提供 AI Agent 的构建服务。在数据问题上,为了支撑 AI Agent 落地,火山给出的建议是建设多模态数据湖,造好 AI 时代的数据新基建。火山引擎数智平台负责人郭东东指出,在迈向  AI Agents 的进程中,数据领域呈现出两大趋势。其一,非结构化数据的占比越来越高。尤其是在多模态技术兴起后,如何从非结构化数据中深度洞察有价值的信息,成为关键问题。其二,结构化与非结构化数据会融合,即多模态数据的融合将成为主流趋势。这也是为什么,企业需注意重构大数据基础设施。


AI 基础设施是由 AgentKit(Agent 套件)、TrainingKit(训练套件)、ServingKit(推理套件)构成的 AI 基础设施套件三角,这部分对业务的提速和降本最为直接。


AgentKit 是火山引擎面向企业级 AI Agent(智能体)开发与部署推出的全栈解决方案,目标是降低企业构建自主决策型 AI Agent 的门槛,提升任务执行的可靠性和效率。目前,AgentKit 支持 Tool Use(工具调用协议)和 MCP Servers(Model-Centric Platform,连接模型与外部服务的协议),可无缝接入超过 200 个 MCP 工具生态。


对 MCP 工具生态的评估,当下还存在很大不确定性——有人称其为 GenAI 时代的“Type-C”,有人认为 MCP 不过企业宣传自身 SDK 的借口,价值不大。但 MCP 之于工具生态的价值,与其和云服务的结合程度呈正相关。火山引擎智能算法负责人、火山方舟负责人吴迪表示,火山引擎的 MCP Servers 已经与 AI 原生 IDE Trae、 方舟体验中心、 Coze 打通。与云的链接,是火山 MCP 服务的重要特色。 开发者可以通过 MCP,控制火山引擎的云服务组件, 便捷地完成计算、网络、存储等环境部署。 更快的把一个创意,变成一个成熟的产品。



TrainingKit 则是火山引擎训练套件,是面向机器学习应用开发者的企业级云原生平台,提供开发机、自定义任务、实验管理等丰富的建模调试工具以及多框架高性能推理服务。其核心评估指标是 MFU(Model Flops Utilization)训练算力实际利用率,MFU 越高,GPU 空闲时间越低。TrainingKit 将 MFU 提升了 60%,意味着可使 GPU 集群接近理论的算力峰值。


至于 ServingKit,目标是为企业提供从模型部署、推理优化到运维观测的一站式解决方案。套件内涉及多项服务,包括镜像服务、算子加速器、AI 网关等等。因为推理和视觉理解过程中的算力消耗巨大,所以 Serving Kit 可帮助用户降低成本,满足不同生态下的推理性价比需求。根据官方数据,ServingKit 可以帮助将 TTFT 降低 60%、TPS 吞吐提升 3x,可以显著改善推理业务用户体验。



我们可以换个角度看待 AgentKit、TrainingKit、ServingKit,它们对应着企业在部署 AI 业务时,所重点考察的三个维度效率、成本和体验。今天,在帮助企业加速 AI Agent 落地时,效率、成本、体验三角,甚至已经成为最主要的采购和选型框架。


在六月的 Force 大会上,还有一个明确的信号被透露出来:安全话题被重点提及,说明产业落地 AI Agent 已经快速跨过了早期的观望和调研阶段,开始实际的项目实施和落地。火山引擎认为,安全是一切 Agent 运行的基础,所以一口气发布了两款 AI 安全产品:一是 AICC 密态计算,保障推理链路 100% 不留痕、不泄露;二是大模型应用防火墙,日均拦截数十亿次恶意攻击。


整体看下来,火山引擎恐怕是第一个以 Agentic AI 重构全套基础设施的云计算企业,势必也将对行业部署 AI Agent 的思路产生非常大的影响。云计算行业其实有更重要的命题需要求解:Agentic AI 的商业价值,最终取决于其嵌入现实生产系统的深度,AI 产业正从“技术驱动”转向“需求驱动”的新周期。谁能将 AI Agent 从 Demo 转化为企业的“数字生产力”,谁就能在智能化转型中掌握更多定义行业规则的话语权。

2025-06-17 14:284366

评论

发布
暂无评论

TDSQL自动交付方案: 全球灵活部署,最快9分钟

腾讯云数据库

数据库 tdsql

T-TDSQL的典型应用

腾讯云数据库

数据库 tdsql

T-TDSQL的核心技术

腾讯云数据库

数据库 tdsql

阿里菜鸟+腾讯IEG面经(阿里5面,腾讯8面)无限秽土转生

Java 程序员 架构 面试 计算机

无敌!肝完这套Alibaba面试全能小册,百万年薪在向你招手!

Java 阿里巴巴 编程 面试 程序人生

高能预警!Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java 程序员 架构 面试 Alibaba

云原生架构下的持续交付实践

百度Geek说

架构 云原生 后端

腾讯云分布式数据库TDSQL的十年自主可控之路

腾讯云数据库

数据库 tdsql

如何实现 iOS 短视频跨页面的无痕续播?

阿里云CloudImagine

ios 阿里云 Video播放器 视频云

TDSQL原创技术的出发点

腾讯云数据库

数据库 tdsql

牛掰!阿里大佬刷了四年LeetCode才总结出来的数据结构和算法手册

Java 编程 架构 面试 程序人生

12年技术老兵整理的Alibaba“MySQL 学习笔记”带你轻松拿捏MySQL

Java 编程 架构 面试 程序人生

多线程环境下,程序运行真是危机四伏

Java 架构 面试 后端 多线程

拓路前行-TDSQL追求极致体验的这一路

腾讯云数据库

数据库 tdsql

自助售货机主板要注意哪几个方面?

双赞工控

安卓主板

使用DEM和矢量数据绘制地图

gisbook

GIS map DEM

在云中确保安全的五个技巧

云计算

大奖花落谁家,TDSQL他来了

腾讯云数据库

数据库 tdsql

什么是CPython

林十二XII

T-TDSQL的核心理念,为数据赋能

腾讯云数据库

数据库 tdsql

JVM专题01-类加载机制详解

JustRunning

javacore JVM 深入理解JVM Java类加载

深入理解 Linux 的 epoll 机制及epoll原理

Linux服务器开发

网络编程 epoll Linux服务器开发 IO多路复用 Linux后台开发

在?来说点儿程序员Style的金句吧【话题讨论】

气气

话题讨论

工信部整治平台网址屏蔽问题,打击互联网行业垄断任重道远

石头IT视角

TDSQL交付要求和挑战: 快速、灵活、安全

腾讯云数据库

数据库 tdsql

拯救你的算法!GitHub上神仙项目手把手带你刷算法,Star数已破110k

Java 编程 架构 面试 程序人生

TDSQL多集群下的自动化和交付

腾讯云数据库

数据库 tdsql

使用PaddleNLP打造精准文献检索系统,看万方系统升级放大招!

百度大脑

人工智能 nlp 飞桨

不是吧 阿sir!都21年了还有人不会算法?赠你份字节内部算法手册吧

Java 编程 架构 面试 架构师

面试官:你说说限流的原理?

艾小仙

面试

理解RESTful API

林十二XII

对 Agentic AI 的支撑,快成这家大厂的OKR了_生成式 AI_InfoQ精选文章