阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

从 AI Agent 到 Agentic AI:开源如何助力开发者解决行业痛点?

字节跳动开源

  • 2025-06-25
    北京
  • 本文字数:4434 字

    阅读完需:约 15 分钟

大小:2.09M时长:12:12
从AI Agent到Agentic AI:开源如何助力开发者解决行业痛点?

2025 年,全球开源软件项目数量稳定增长,总规模突破 5 亿个。在这一增长趋势中,中国企业的贡献尤为显著,据媒体报道,2025 年,中国开源项目数量已达 3000 万个,参与开源生态建设的企业数量正在持续增加。


2025 上半年,字节跳动开源了多个 AI 领域创新项目,鼓励开发者创新思考。在 6 月 12 日举办的字节跳动火山引擎 Force 原动力大会开源开发者日上,字节跳动开源委员会治理运营负责人石扬、AIBrix 项目负责人谢立广,DeerFlow 项目负责人李昕,UI-TARS 工程负责人金鑫,veRL 核心开发者陈海泉、童雨轩,ABCoder 项目负责人高文举,带来多个精彩主题分享,共同探讨开源为 AI Agent 带来的技术改变,以及前沿解决方案与实践经验。


实战落地:开源项目如何解决 AI Agent 行业痛点


当前 AI 技术发展迅速,但面临诸多挑战:资源利用效率低、推理成本高、系统可扩展性差、多模态数据处理复杂等  在这样的背景下,开源成为了解决这些问题的关键力量。开源的本质是共享,嘉宾们通过分享各自在大模型推理场景、开源强化学习框架、多模态与跨平台能力等方面的开源产品经验,展示了如何解决这些痛点的理念及实战经验。


首先,嘉宾们分享了如何提升大模型的强化学习能力。


为了让大模型在复杂场景中实现更优的强化学习效果,嘉宾们带来了大模型的强化学习范式和人机交互的提升策略:


veRL 是由字节跳动 Seed-Infrastructures 团队发起并维护的一个开源强化学习框架,它旨在通过高效的训练流程和灵活的算法实现,支持多样的强化学习训练需求。


veRL 产品核心开发者童雨轩提到,当我们想要把基于大语言模型的强化学习,实现成一个具体在设备上的计算的时候,需要照顾到多种多样的约束条件。veRL 发挥 Single Controller 的作用,将复杂数据流核心逻辑用简短代码描述,并支持多种 RL 算法,方便用户修改算法满足任务需求。


veRL 的调度范式采用 Hybrid Controller 范式的混合架构,融合了传统范式中 Single Controller 和 Multi Controller 的优势,有一个中心化的 Single Controller 来控制全局数据流动,将具体数据生成和计算交给 Operator,Operator 内部基于 Multi Controller 范式,既实现了数据流动调度的灵活性,弥补了传统范式中,Single Controller 中心控制节点压力大、通信成本高的问题,以及 Multi Controller 编程复杂、代码逻辑分散,影响编程效率的问题;又实现了大规模分布式计算的高效性。


(veRL 产品核心开发者童雨轩发表专题演讲《veRL:灵活高效的大型语言模型强化学习框架》)


DeerFlow 则是通过反馈不断改进自己的行动。DeerFlow 是一款专门为初学者设计的开源多智能体深度研究应用框架,项目负责人李昕提到,DeerFlow 拥有人机协作功能(Human in the Loop)功能,当向大模型提需求时,它会先给出它的任务拆解思考,点击“Edit Plan”(修改计划)就能对机器的规划做修改,无论是调整细节、补充信息还是重新定义方向,都能修改。当它解答完问题,人类也可以在 “human feedback”(反馈环节)向 AI 提出意见,对它说“步骤太简单了,你可以再加一个步骤”,大模型就会重新规划,并按照新的步骤继续执行。


其次,嘉宾们展现了如何实现多模态与跨平台支持。


在智能体技术栈中,多模态与跨平台能力正成为解决实际场景挑战的关键。字节跳动三款开源工具——UI-TARS、DeerFlow 与 ABCoder,分别从界面理解、内容生成和编程增强三个维度切入。


(UI-TARS 工程负责人金鑫发表专题演讲《基于 UI-TARS 的 GUI Agent 实践》)


UI-TARS 是字节跳动开源推出的一种能够自我学习的 GUI Agent、一代原生 GUI 代理模型,旨在使用类似人的感知、推理和操作功能与图形用户界面(GUI)无缝交互。UI-TARS 将所有关键组件——感知、推理、反思、记忆集成在一个视觉语言模型(VLM)中,实现端到端任务自动化,无需预定义的工作流或手动规则。它能够像人一样“看”懂界面,天然跨平台且抗界面变动。


UI-TARS 工程负责人金鑫介绍称,UI-TARS 采用纯视觉感知技术,直接通过屏幕截图理解界面,无需依赖 API 或解析底层代码。例如,让它执行识别小票并把小票内容整理到 Excel 里的任务,它可以将识别小票的设备远程连到火山的虚拟机上,在上下文环境中找到小票,并以纯视觉的方式把小票内容自主整理到 Excel 里。


(DeerFlow 项目负责人李昕发表专题演讲《DeerFlow —— 基于 LangStack 的 DeepResearch》)


DeerFlow 是一款专门为初学者设计的开源多智能体深度研究应用框架,基于 LangChain 和 LangGraph 框架构建,并支持通过 MCP 服务扩展功能。除了生成深度研究报告,它还支持播客脚本、PPT 演示文稿等多种内容形式的生成,满足不同场景需求。


此外,它还集成了网络搜索、学术资源检索(如 Arxiv)、爬虫和 Python 代码执行等多种工具,为研究人员提供了全面支持。这些工具的集成使得 DeerFlow 在处理复杂的多模态内容生成任务时表现出色,极大地提升了研究效率和内容生成的质量。


(ABCoder 项目负责人高文举发表专题演讲《ABCoder:编程场景下的 LLM 增强探索》)


在 AIGC 浪潮席卷技术领域的今天,字节跳动研发的 ABCoder 编程增强方案正掀起一场静默的技术革命。这个开源项目不仅解决了大语言模型在复杂编程场景中的“认知困境”,更开创性地构建了编程语义的标准化表征体系。


大语言模型在处理多层逻辑嵌套、高阶算法设计及系统架构规划时,普遍面临三个核心挑战:

  • 上下文窗口限制导致的代码片段割裂理解

  • 传统文件检索方式的结构化认知缺失

  • 语义检索困难造成的知识复用瓶颈


ABCoder 通过构建 UniAST(统一抽象语法树)体系,创造性地将编程项目抽象为三维坐标系:

  • 结构维度:保留传统 AST 的结构化层级

  • 语义维度:注入语义化锚点与控制流分析

  • 时空维度:记录多仓互联与依赖关系


这种创新的表征方式为大语言模型带来了全方位的编程上下文扩充。


ABCoder 通过一套通用编程语言接入规范,支持多语言灵活扩展,当前已内置 Golang、Rust、Kotlin、TypeScript、C、Python 等主流语言解析器。在字节内部,基于 ABCoder 已经落地的应用包括 RepoTalk(多维度项目说明书)、半空(编程语言互译)。其中,RepoTalk 的高维度项目说明书基本完全涵盖 DeepWiki 的知识呈现;半空在字节内部已完成 Go2Rust、Kotlin2Typescript 项目辅助迁移的落地,综合提效显著。更为通用的,ABCoder 针对仓库的结构化理解元能力正在作为一个新兴的基础设施,服务于大语言模型时代越来越多的上层应用。


针对大模型部署中资源调度难、响应慢等制约企业效能的关键瓶颈,嘉宾也提出了解决方案。


(AIBrix 项目负责人谢立广发表专题演讲《AIBrix:基于 vLLM 的高性价比 LLM 推理加速方案》)


传统的 Kubernetes 容器编排平台在遇到大语言模型推理场景时,它自动伸缩的机制会遇到诸多挑战,如扩缩容指标选择困难,常用的 QPS 和 GPU usage 指标在大模型推理中不适用,不同长度的 LLM 请求资源消耗差异大。


AIBrix 项目负责人谢立广提出了解决方案,即采用 TTFT、TPOT 等更精细化的专用扩缩容指标,从而实现更合理的自动扩缩容判断。同时,设计基于异构 GPU 的自动扩缩容方案,让不同价位的 GPU 处理不同范围的 request,并优化 LoRa 和路由的管理,使得资源利用率提升 40% 以上,显著降低了成本。在提升性能方面,通过全栈优化集成 KVCache 多级卸载、PD 分离等技术,显著提升系统的响应速度和性能。


作为针对大模型推理场景设计的基于 Kubernetes 云原生系统,AIBrix 通过优化资源管理和计算效能来提升效率,并致力于解决 LLaMA、DeepSeek 等开源模型在生产部署中的关键挑战。


开源助力 AI Agent 的技术突破与生态构建


在“开源助力 AI Agent 的技术突破与生态构建”圆桌论坛上,嘉宾们对于开源的初衷以及未来的远景展开了讨论。他们通过开源推动了技术进步、提升了用户体验,并显著扩大了产品影响力。


(圆桌论坛:开源助力 AI Agent 的技术突破与生态构建)


毫无疑问的是,开源推动着 AI 产品的技术创新,为用户带来更丰富的体验。


veRL 核心开发者陈海泉称,veRL 开源的目的是为了提供一个灵活高效的强化学习框架,帮助更多开发者和企业更好地应用强化学习技术。veRL 已经发展成为一个活跃的开源社区,有来自不同领域的公司以及个人的贡献者一起在 veRL 开发新技术,让来自各种行业的用户能更方便地使用上强化训练来提高自己模型的能力。


到目前为止,veRL 在 GitHub 已积累了 9900+stars,1600+forks,接近 1300 个 PRs ,超过 240 个 contributors。


开源不仅推动企业技术进步,还提升着用户的体验。UI-TARS 工程负责人金鑫称,仅通过自己的力量很难把各个设备和操作建立得非常完善,这需要整个生态和厂商一起来共建整个操作层,让 AI 可以更好地通过视觉来操作所有的电设备,共建生态。同时,开源能给用户带来一种安全感和透明感,增加用户的信任。


UI-TARS 自 2025 年初在 GitHub 开源以来,收获了 1.4 万 Stars,开源使得 UI-TARS 能够不断优化和扩展功能,UI-TARS-1.5 在游戏中的表现尤为突出,不仅在多个小游戏测试中展现了稳定的推理和交互能力,还在《我的世界》等开放环境中验证了其动态决策能力。


与此同时,开源也成为提升产品影响力的关键驱动力。


DeerFlow 项目负责人李昕提到,开源的初衷是为了帮助初学者从零开始构建深度研究项目,降低入门门槛。 DeerFlow 在 GitHub 上线仅 7 天便收获 1 万 Stars,现已达到 1.3 万 Stars,成为字节跳动开源社区中时下最热门的项目。LangChain 作者 Harrison 和 LangChain 官方账户三次转发相关推文,称赞界面漂亮、实现简单。


AIBrix 项目负责人谢立广称,从今年 2 月开源至今,收获了 50 多个社区的开源贡献者参与项目的发展,项目已吸引了包括 AWS 等众多行业领军企业合作,已成功集成至 AWS EKS 服务并支持在 AWS Trainium 和 Inferentia AI 芯片上运行。同时项目也和 Google、RedHat 在 Kubernetes 社区合作。AIBrix 的目标是与众多厂商和开源社区合作,为构建下一代 AI 推理基础设施提供大规模的生产级别的开源解决方案。


开源通过共享代码、经验与解决方案,让全球开发者得以共同加速 AI 技术的进化与落地。从 AIBrix 的高效推理调度到 UI-TARS 的跨平台视觉交互,从 DeerFlow 的低门槛研究框架到 veRL 的分布式强化学习引擎,字节跳动的开源实践项目不仅显著降低了开发成本,更通过社区协作不断突破技术边界。当开源打破技术壁垒,创新便从“闭门造车”走向“众行致远”,大众期待的 AI 开源新时代才刚刚拉开序幕。


当前,字节跳动开源生态已覆盖大模型推理、强化学习、多模态交互等前沿领域。如果您对这些开源项目感兴趣,想深入了解其技术细节和应用场景,可以访问以下链接:

AIBrixhttps://github.com/vllm-project/aibrix

UI-TARShttp://github.com/bytedance/UI-TARS-desktop

DeerFlowhttps://github.com/bytedance/deer-flow

veRLhttps://github.com/volcengine/verl

ABCoderhttps://github.com/cloudwego/abcoder


为方便开发者深入了解上述项目实践细节,本次大会所有技术演讲视频已上线,点击链接(https://space.bilibili.com/491266647)即可观看回放。

2025-06-25 18:3260

评论

发布
暂无评论

DIMP:Learning Discriminative Model Prediction for Tracking 学习判别模型预测的跟踪

Geek_7ubdnf

神经网络

阿里云AIoT 经典基础知识 快问快答——基础知识

阿里云AIoT

Serverless 物联网 API 消息中间件 弹性计算

阿里云数据湖3.0解决方案两度登上InfoQ 2022年度榜单

云布道师

阿里云

混沌演练实践(一)

京东科技开发者

测试 混沌工程 系统 混沌测试 企业号 1 月 PK 榜

百度工程师带你玩转正则

百度Geek说

正则表达式 开发工具 正则 企业号 1 月 PK 榜

PCB行业龙头企业*IoTDB | 利用 IoTDB 替换HBase,打破查询功能局限性

Apache IoTDB

GA-RPN:Region Proposal by Guided Anchoring 引导锚点的建议区域网络

Geek_7ubdnf

神经网络

IoTLink v1.2.1 最新公告

山东云则信息科技

Java 物联网 springboot

当我们在谈论DataOps时,我们到底在谈论什么

阿里云大数据AI技术

大数据 运维 数据管理 企业号 1 月 PK 榜

CheckStyle使用

soap said

idea插件 格式化代码

深度学习跟踪DLT (deep learning tracker)

Geek_7ubdnf

深度学习

传输丰富的特征层次结构以实现稳健的视觉跟踪 Transferring Rich Feature Hierarchies for Robust Visual Tracking

Geek_7ubdnf

神经网络

MarkDown简明语法手册

Geek_7ubdnf

markdown

为什么我们的微服务中需要网关?

江南一点雨

nginx SpringcloudGateway

知道这10个让你的API接口突然超时的原因吗?

风铃架构日知录

Java IT java程序员 超时 API接口

如何提高Java代码的质量!

风铃架构日知录

Java 程序员 后端 IT 代码规则

IoT 设备发送 MQTT 请求上云协议讲解——基础知识

阿里云AIoT

缓存 监控 存储 传感器 消息中间件

GAN:生成对抗网络 Generative Adversarial Networks

Geek_7ubdnf

神经网络

如何利用浮动容器制作悬浮下拉菜单?

Towify

MarkDown高阶语法手册

Geek_7ubdnf

markdown

如何使用 Towify 在小程序里实现一个广告轮播图?

Towify

到底什么样的 REST 才是最佳 REST?

小小怪下士

Java 程序员 Rest API

事件总线 + 函数计算构建云上最佳事件驱动架构应用

Serverless Devs

如何用 7 分钟玩转函数计算?

Serverless Devs

Curve 文件存储在 Elasticsearch 冷热数据存储中的应用实践

网易数帆

elasticsearch 云原生 分布式存储 curve 企业号 1 月 PK 榜

面积曲线AUC(area under curve)

Geek_7ubdnf

图像处理

IoTLink 轻量级的物联网综合业务支撑平台

山东云则信息科技

Java 物联网 spring-boot

Java二级高速缓存架构设计

元年技术洞察

缓存 数字化转型 二级缓存 Spring Cache Java’

阿里妈妈 Dolphin 智能计算引擎基于 Flink+Hologres 实践

阿里云大数据AI技术

人工智能 大数据 flink 计算引擎 企业号 1 月 PK 榜

Java高手速成 | 实现人物拼图游戏

TiAmo

Java 拼图

使用MinIO构建分布式文件系统来一次分布式文件系统实战!

风铃架构日知录

Java 程序员 分布式 分布式系统 IT

从AI Agent到Agentic AI:开源如何助力开发者解决行业痛点?_机器学习/深度学习_InfoQ精选文章