写点什么

对 Agentic AI 的支撑,快成这家大厂的 OKR 了

骆驼

  • 2025-06-17
    北京
  • 本文字数:3731 字

    阅读完需:约 12 分钟

大小:1.86M时长:10:48
对 Agentic AI 的支撑,快成这家大厂的OKR了

我一直认为,火山引擎是一家比较有气质的云计算企业——思维新颖,动作很快,且打法总是直来直去。


比如说,从 2024 年年底至今,火山引擎已经将 AI 云原生的框架刷新了三次——从以 GPU 为核心,到以模型为核心,再到今天,以 Agentic AI 为核心。在 6 月 11 日的 Force 原动力大会上,火山引擎总裁谭待聊到,在不同的时代里,技术主体也在发生变化,PC 时代的主体是 web,移动时代是 APP,AI 时代是 Agent。


主体发生变化,连带对基础模型和基础设施的选型标准,也会发生变化。但火山的策略非常偏“直给型”——在火山看来,在提供更详细的网络、存储、算力技术参数前,应该先把基础模型的性能提上去,价格降下来。


豆包大模型,又更新了


在沙丘智库对《Practices for Governing Agentic AI Systems》的解读中,Agentic AI 的代理能力被划分为四个维度:


  • 目标复杂性: 目标复杂性是指 AI 系统的目标对于人类来说实现起来的挑战程度,以及系统能够实现的目标范围有多广。

  • 环境复杂性: 环境复杂性是指 AI 系统实现目标时所处环境的复杂程度。

  • 适应性: 适应性是指 AI 系统在面对新的或意外情况时的适应和反应能力。

  • 独立执行: 独立执行是指 AI 系统在实现其目标时,能够在多大程度上可靠地运作,而不需要人类的干预或监督。


相对应的,谭待认为,能够解决以上问题的基础模型,至少要具备三个方向的突出能力:

  1. 深度思考

  2. 多模态

  3. 工具使用


相应地,豆包系列大模型本次的更新重点,是 doubao-seed-1.6,doubao-seed-1.6-thinking 和 doubao-seed-1.6-flash 三个模型。


Doubao-Seed-1.6 是一款功能全面的综合模型,它提供了关闭深度思考、开启深度思考和自适应思考三种模式供用户灵活选择。支持深度思考、多模态理解和图形界面操作等能力。该模型也是国内首个支持 256K 上下文长度的综合模型。


Doubao-Seed-1.6-thinking 有着更强的深度思考能力,在编码、数学、逻辑推理等领域上具备出色的表现,同样支持 256K 长上下文处理。


Doubao-Deed-1.6-flash 服务于对延迟要求更高、对成本更敏感的客户。 模型的 per token 延迟低至 10ms,在如此出色的延迟之下,flash 模型依然具备了强大的视觉理解能力。


从官方数据来看,豆包 1.6 系列的更新并没有做到全部测试的“屠榜”,但在 Agentic AI 方面,位于第一梯队。比如,doubao-seed-1.6-thinking 在 GPQA Diamond(推理能力)和 MultiChallenge(指令执行)榜单上表现都很不错,超越了 DeepSeek-R1-0528。有媒体称,用 doubao-seed-1.6-thinking 针对高考数学全国卷学做了单科评测,豆包 1.6 成绩是 144 分,是国内第一。



此外,基于豆包 1.6 系列模型,豆包 APP 可以实现“边想边搜”和“DeepResearch”。前者的意思是,豆包 1.6 可以结合思维链,进行多轮搜索,使得到的结果质量更高,而不是像过往的推理模型一样,一次性将所有的联网搜索任务执行完;后者则是单独服务于深度研究场景,可以更便捷地给出研究成果。


就深度思考这一维度而言,豆包 1.6 问题不大。


关于多模态和工具使用能力,豆包 1.6 系列的能力也比较强。1.6 系列模型支持了豆包 APP 最新的实时视频通话功能,在企业侧可应用于电商商品审核、自动驾驶标注、安全巡检等场景。1.6 系列模型对 GUI 的操作也十分精准——如果基于豆包 1.6 部署和运行 AI Agent,那么 AI 完全可以代替对不同的网站进行精准检索、信息收集,任务交付的质量更接近真人。


豆包在多模态领域的更新不止于此,最新的豆包视频生成模型 Seedance 1.0 pro 也同时发布了。官方称,Artificial Analysis 最新结果显示,豆包视频生成模型在文生视频、图生视频两个维度超越了业界诸多主流模型,登顶全球竞技场第一。

性能提升了,价格却降低了,低到了一个令人惊讶的区间。


行业的普遍情况是,使用同一个模型完成通用问答任务、推理任务、多模态任务,Token 的价格是不一样的。谭待表示,影响模型成本的关键是输入、输出长度,因此从豆包 1.6 系列开始,无论是推理任务还是多模态任务,价格统一。



豆包 1.6 官方给出的价格是,输入上,每百万 Token 0.8 元到 2.4 元;输出上,每百万 Token 8 元 到 24 元。因输入、输出区间 Token 多寡不同,价格会在几个档位间进行浮动。


这意味着,在输入输出占比为 3:1 的情况下,每百万 Tokens 的综合成本只有 2.6 元,对比豆包 1.5 深度思考模型和 DeepSeek R1 下降了 63%。如果输入在 32K Tokens 以内,输出在 200 Tokens 以内,此价格还会进一步降低,为 0.8 元 / 百万 Tokens(输入)、2 元 / 百万 Tokens(输出)。


按照 OpenAI 和国内主流模型的 Token 换算规则,一百万 Token 大致相当于 150 万汉字左右,也就是说,花上二三十块钱,几乎就能生成一本完整的网络小说,或者重整中小型公司的整个知识库。


考虑到当前 Agentic AI 类任务的输出结果,非常多样化,除视频生成模型外,实时语音模型、语音播客模型也迎来全面更新。


把品类丰富好,性能提升到位,价格降到足够低,火山将这条优化思路,执行的非常彻底。


如何保障 AI Agent 落地生产环境?


当然,仅仅更新基础模型,绝不是火山引擎的风格。在 Force 原动力大会的开场致辞中,梁汝波提到,做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。而火山引擎本质还是一家云计算公司,要保障客户的 AI Agent 可以平滑地落地生产环境。


火山是通过 Agent 开发平台、数据、AI 基础设施、安全等几个不同的维度来做技术保障的。


对于 Agent 开发平台而言,火山的产品体系是国内最完备的——最上层有 TRAE 作为 AI IDE,火山方舟、HiAgent、扣子、PromptPilot 可以在各个维度提供 AI Agent 的构建服务。在数据问题上,为了支撑 AI Agent 落地,火山给出的建议是建设多模态数据湖,造好 AI 时代的数据新基建。火山引擎数智平台负责人郭东东指出,在迈向  AI Agents 的进程中,数据领域呈现出两大趋势。其一,非结构化数据的占比越来越高。尤其是在多模态技术兴起后,如何从非结构化数据中深度洞察有价值的信息,成为关键问题。其二,结构化与非结构化数据会融合,即多模态数据的融合将成为主流趋势。这也是为什么,企业需注意重构大数据基础设施。


AI 基础设施是由 AgentKit(Agent 套件)、TrainingKit(训练套件)、ServingKit(推理套件)构成的 AI 基础设施套件三角,这部分对业务的提速和降本最为直接。


AgentKit 是火山引擎面向企业级 AI Agent(智能体)开发与部署推出的全栈解决方案,目标是降低企业构建自主决策型 AI Agent 的门槛,提升任务执行的可靠性和效率。目前,AgentKit 支持 Tool Use(工具调用协议)和 MCP Servers(Model-Centric Platform,连接模型与外部服务的协议),可无缝接入超过 200 个 MCP 工具生态。


对 MCP 工具生态的评估,当下还存在很大不确定性——有人称其为 GenAI 时代的“Type-C”,有人认为 MCP 不过企业宣传自身 SDK 的借口,价值不大。但 MCP 之于工具生态的价值,与其和云服务的结合程度呈正相关。火山引擎智能算法负责人、火山方舟负责人吴迪表示,火山引擎的 MCP Servers 已经与 AI 原生 IDE Trae、 方舟体验中心、 Coze 打通。与云的链接,是火山 MCP 服务的重要特色。 开发者可以通过 MCP,控制火山引擎的云服务组件, 便捷地完成计算、网络、存储等环境部署。 更快的把一个创意,变成一个成熟的产品。



TrainingKit 则是火山引擎训练套件,是面向机器学习应用开发者的企业级云原生平台,提供开发机、自定义任务、实验管理等丰富的建模调试工具以及多框架高性能推理服务。其核心评估指标是 MFU(Model Flops Utilization)训练算力实际利用率,MFU 越高,GPU 空闲时间越低。TrainingKit 将 MFU 提升了 60%,意味着可使 GPU 集群接近理论的算力峰值。


至于 ServingKit,目标是为企业提供从模型部署、推理优化到运维观测的一站式解决方案。套件内涉及多项服务,包括镜像服务、算子加速器、AI 网关等等。因为推理和视觉理解过程中的算力消耗巨大,所以 Serving Kit 可帮助用户降低成本,满足不同生态下的推理性价比需求。根据官方数据,ServingKit 可以帮助将 TTFT 降低 60%、TPS 吞吐提升 3x,可以显著改善推理业务用户体验。



我们可以换个角度看待 AgentKit、TrainingKit、ServingKit,它们对应着企业在部署 AI 业务时,所重点考察的三个维度效率、成本和体验。今天,在帮助企业加速 AI Agent 落地时,效率、成本、体验三角,甚至已经成为最主要的采购和选型框架。


在六月的 Force 大会上,还有一个明确的信号被透露出来:安全话题被重点提及,说明产业落地 AI Agent 已经快速跨过了早期的观望和调研阶段,开始实际的项目实施和落地。火山引擎认为,安全是一切 Agent 运行的基础,所以一口气发布了两款 AI 安全产品:一是 AICC 密态计算,保障推理链路 100% 不留痕、不泄露;二是大模型应用防火墙,日均拦截数十亿次恶意攻击。


整体看下来,火山引擎恐怕是第一个以 Agentic AI 重构全套基础设施的云计算企业,势必也将对行业部署 AI Agent 的思路产生非常大的影响。云计算行业其实有更重要的命题需要求解:Agentic AI 的商业价值,最终取决于其嵌入现实生产系统的深度,AI 产业正从“技术驱动”转向“需求驱动”的新周期。谁能将 AI Agent 从 Demo 转化为企业的“数字生产力”,谁就能在智能化转型中掌握更多定义行业规则的话语权。

2025-06-17 14:283958

评论

发布
暂无评论

言简意赅,聊聊RPC的123事

一叶而不知秋

RPC

开源一个自研的基于Netty的高性能网络通信框架

Geek_373e87

TCP dubbo Netty

一种消息消费失败的处理方案

redis kafka

这样理解Java中的函数式编程就对了

jerry

java8 函数编程

第一篇InfoQ的博客

程序员小岑

写作 体验

中年危机,我们如何面对?

石云升

new[]和delete[]为何要配对使用?

泰伦卢

c c++ C#

小米手机广告在日本「炸」了,背后的教训是什么?

葛仲君

产品 本地化 小米 日本 文化

iTerm2使用小技巧-密码管理器

小菜与老鸟

iTerm

Flutter 中SharedPreferences 的初始化?

三爻

flutter android

快速开发那点事儿 | 选择最合适的轮子,量产跑车

Java_若依框架教程

敏捷开发 JAVA开发 RouYI 快速开发

【预告】千亿数据的潘多拉魔盒:从分库分表到分布式数据库

kimmking

分布式数据库 分库分表 分布式系统 中间件

IT人的职业提升只靠技术精进行的通吗?

MavenTalker

程序员 程序人生 职业规划 技术人

MyBatis 3 解析Mapper映射配置

杨家昌

mybatis 配置 Mapper XMLMapperBuilder

MyBatis 3 解析mybatis-config.xml配置

杨家昌

深度解析 mybatis 初始化 XMLConfigBuilder Configuration

专题:快速开发那点事儿 | 轮子怎么选

Java_若依框架教程

Java 敏捷开发 Ruoyi 快速开发

hive 建表语句迁移

飞哥

为什么很多技术都觉得前端很简单?

极客时间

大前端

没有业务规则的技术实现

wd

吐槽

地址收录

gogogo

源码分析shared_ptr实现

泰伦卢

c c++ C#

MyBatis 3 XML配置

杨家昌

mybatis mybatis-config.xml XML配置 配置

自助设备系列——自助设备的春天

孙苏勇

产品

spring boot 集成 elasticsearch 7.x (一)

wd

elasticsearch high level client

关于架构的几件小事:架构是什么

北风

架构 企业架构

Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

Apache Flink

大数据 flink 流计算 实时计算

讨论:应不应该用存储过程?

kimmking

游戏夜读 | 有哪几种游戏玩家?

game1night

基于大疆无人机SDK二次开发

sydMobile

android 无人机

央行:取消境外机构投资者额度限制,推动金融市场进一步开放

kimmking

算法篇之数组右移

月夜

算法 数组右移

对 Agentic AI 的支撑,快成这家大厂的OKR了_生成式 AI_InfoQ精选文章