
在 7 月 26 日召开的 WAIC 世界人工智能大会上,AI Agent、具身智能被推上了 C 位:从行业论坛到展台,几乎所有头部玩家都在回答同一个问题——当大模型走上工作岗位、长出“身体”之后,产业到底会变成什么样?
在展区,机器人接管了让人意想不到的诸多工作,如:货物装卸、电池分拣、吸尘清扫、桌面游戏、翻越障碍、打拳击……曾经的不可能,在今天已成为常规操作,引爆了现场气氛,掀翻了会场天花板,有参会者惊呼:我们不会被机器人替代吧?!
对 AI Agent 的演示和探讨,则横跨严肃场景、娱乐场景,从社交软件到企服软件,智能体几乎成了参展的必备要素。多个 AI Agent、AI Agent 基础设施、Agent OS 发布,场景覆盖从营销到智能座舱。其中京东展台尤其人满为患,JoyAgent 作为一个完全开源的 AI Agent 构建平台,是与会者上手体验的焦点之一。
其实,JoyAgent 能够成为现场 C 位,完全可以理解——京东选择将一个 SOTA 级别 Agent 平台端到端完全开源,这是给行业的最大惊喜。

彻底开源,不存在侥幸
开源正成为 AI Agent 落地生产级环境的重要推动力,也是促进技术普惠、形成行业统一标准的核心力量。站在企业的角度看,一个行业形成之初,也恰恰是开源战略收益最大的时期。
SOTA、免费、100% 本地复现,足以掀翻一切闭源软件,形成事实上的行业标准,快速拔高准入门槛,避免重复造轮子。但大部分软件公司并未做到完整开源,在开源战略的实施上,多少有些“心存侥幸”。
比如声名在外的 MetaGPT、CrewAI,基本上只是开源 Python 核心库、框架以及一些示例和 CLI。至于调度器、沙箱、监控部分的代码,很少有 AI Agent 平台会将其开源。
由之而来的问题是,直接依赖这些开源代码,是无法在本地 100% 复现的,这对企业完成 GenAI 时代的智能化转型是极大的障碍。举个例子,国内有许多非技术驱动的传统企业,缺乏研发资源,软件栈基本来自外包,全职开发者还不到 50 人,很难完成 AI Agent 平台的本地化部署。
落地困难,行业标准就无法形成。
在这方面,京东云 JoyAgent 真正实现了“开箱即用”,不同于其他企业仅仅开源框架和 SDK,JoyAgent 开源了前端、后端、引擎与核心子智能体等部分的代码,可以在本地 100% 复现。

同时,受 AI Coding 的影响,创业公司的启动门槛降低,行业出现许多团队不足十人,但已初步打开市场的天使轮公司,他们没有足够的采购预算,难以负担动辄数百万的 Agent 平台采购成本。而 JoyAgent 孵化自京东内部场景,历经复杂商业场景验证,等于直接将行业 Know-How 一并开源,也解决了这些创业公司的问题。
另外,生产环境对模型幻觉的忍耐度低,对 AI Agent 的任务成功率要求高,相对来说技术门槛更高,涉及许多工程问题。所以在实际选型来看,通常要和 To C、To D 级的 AI Agent 平台区别看待。京东云 JoyAgent 作为企业级智能体,表现也非常不错,尤其是在 GAIA 榜单上,取得了亮眼成绩。
搞定 GAIA 测试,JoyAgent 的技术秘密
2024 年由 Meta、Hugging Face 与法国国立计算机及自动化研究院(INRIA)联合推出的公开基准:GAIA 榜单(General AI Assistant Benchmark),几乎已成社区公认的“Agent 高考”,专门用来衡量 AI Agent 在真实世界任务中的工具调用、推理与长程规划能力。
GAIA 共有 450 道英文题目,覆盖网页浏览、文件操作、API 调用、数学推理、多模态理解等场景,共分为 Level 1-3 三级难度:
Level 1:≤5 步、单一工具即可解决;
Level 2:5-10 步、需组合 2-3 种工具;
Level 3:任意步数、任意工具,接近“通用 Agent”。
答案必须精确匹配(F1 ≥ 0.8)才算通过。
而 JoyAgent 智能体在 GAIA 榜单准确率达到 75.15%,这比 LRC-Huawei、xManus、AutoAgent 等产品的成绩都要好。其中,JoyAgent 在 Level 1 级任务的通过率达到了 86.79%,在 Level 3 级任务的通过率达到了 42.30% ,表现超出此前些许多媒体的预期。

要达成这一成绩,技术难度不小,对于 JoyAgent 而言可以大致归类为以下五种挑战:
对多智能体设计模式的支持
多智能体上下文管理的设计
如何做好能力分离与协同
如何提升执行效率
预置工具是否足够丰富,是否支持自动工具生成和多文件格式交付
在多智能体设计模式支持的问题上, JoyAgent 覆盖了 ReAct、Plan & Execute、Reflection 等主流模式。
ReAct 模式,可以理解为 Reasoning + Acting,要求智能体一边观察、一边想、一边干,适合做网页检索等类型的工作,输出研究报告;Plan & Execute 是先做完整计划,再一次性执行完,执行路径短,适配工具调用成本较高的场景,对企业级任务的兼容度好;Reflection 模式的核心在于自省,自己执行、自己检查和修订,适合代码、文章生成类任务。
几种模式各有所长,但企业级环境为了解决实际问题,要求对主流模式都能支持,像 OpenManus 只支持 ReAct 模式就不满足要求。
能干的活儿足够多,这是 JoyAgent 进入生产及环境的基础。
同时,生产环境的业务上下文也比较复杂,大型语言模型(LLM)的上下文窗口有一定限制(通常在 16K 到 100K token),这成为智能体处理复杂任务的主要瓶颈。在实际应用中,网页内容、代码文件和搜索结果等常常超过这些限制,简单的截断或摘要可能导致重要信息丢失。
为了解决这个问题,京东云 JoyAgent 智能体采用了一种创新策略:根据任务结果将文件归档,LLM 则根据文件描述按需加载。这种方法不仅突破了上下文限制,还保留了信息的完整性,解决了上下文信息传递的问题,大大降低了运行成本并提升了框架的稳定性。
有资深开发者对 JoyAgent 的文件系统上下文设计思路进行了总结,可以分为五点来看:
分离存储:对话历史用内存,文件工作空间用文件系统
引用管理:AgentContext 只存文件元数据,不存实际内容
自动注入:文件信息自动格式化注入到 LLM 提示中
生命周期管理:区分全局文件 (productFiles) 和任务文件 (taskProductFiles)
会话隔离:使用 sessionId 确保不同会话的文件隔离
其服务场景和触发时机大致如下:

将过长的上下文转为外部存储,这种技术方案实际并不罕见,但 JoyAgent 的独到之处在于可以做到更细颗粒度的存储和检索,实现方案足够“精致”,因此效能也更好。
行业期待 Muti-Agent 互相协作,犹如一个机器人团队,完成所有复杂工作。但实际情况是,必须有相当的技术能力,才能做好能力的分离与协同,支持多 Agent 之间的高效协作。
JoyAgent 将规划、执行、搜索、编码和报告等任务分配给不同的智能体独立负责。这样可以避免单个智能体负责多个任务,从而降低提示词管理和调试成本。它同时采用了 Multi-level and Multi-pattern Thinking 双层级架构,确保宏观规划和微观执行的最优结合。这与 Gemini-CLI、Cusor 等产品的做法类似——通过粗粒度的 Task 来管控目标,通过 Reason Act 模式来操作 Task, 协同完成整体目标。
以上三项技术攻坚,使 JoyAgent 基本迈过了“落地生产环境”的门槛,但对企服市场而言,进做到这一步是不够的。中国企服市场最大的特征是定制需求多,不够标准化,因此 AI Agent 平台必须足够灵活。
这是为什么 JoyAgent 在提供丰富的工具、支持多类型输出等方面下了大功夫。
JoyAgent 平台预置了多种子智能体和工具,智能体主要包括 SearchAgent、ReportAgent、CodeAgent 等,工具包含多种文档处理工具、不同报告生成工具如 html、ppt、markdown 生成工具。
以 PPT 样式为例,技术路线大致分为三种:直接生成 PPT、PPT 模版 + 内容填充、中间样式 + 转 PPT,直接生成 PPT 目前没办法生成复杂的样式、模板 + 内容填充则相对容易但缺点是缺少灵活性,因此 JoyAgent 采用的是中间样式(html) + 转 PPT 的方案。
另一项有点“匪夷所思”的能力,在于 JoyAgent 调用的工具是可以自动进化的,可以基于现有工具自动组合成新的工具能力,让大模型进行剖析场景后生成对应的工具组合,以数字员工方式进行工具化服务。 有开发者将其称之为“数字员工 As Tool ”能力。
开发者也自发对 JoyAgent 的源码进行了解读,罗列了这种工具进化能力,与传统 Agent 框架的区别:

最后,性能表现也十分关键,虽说从推理模型开始,用时间换空间,已成为 AGI 技术演进的默认路线之一,但落地到实际业务中时,通常也无法容忍 Agent 的效率过于低下。
JoyAgent 尝试通过全流式输出、并行执行任务、并行调用工具、工具内部并行处理,来优化多智能体的执行性能,提升用户体验。平台支持四个引擎同时并发进行检索、最多五个线程的并发搜索,并配有智能内容截断机制,通过截断可以保证文档和结果的可用性。
JoyAgent 同时做了一些搜索任务的精细化去重,动态决定是否需要更多搜索,从而规避当下智能体常见“顽症”:“死循环”一般无穷无尽且过于复杂的检索和分析流程。
以上五项技术任务完成后,JoyAgent 能在 GAIA 测试中取得好成绩,自然也不难理解。笔者更多的震撼在于:作为一家以 C 端业务为主要营收的企业,京东并非没有 To B 基因—— JoyAgent 的一大“立身之本”在于面向实际业务场景足够灵活,有点像“瑞士军刀”,官方数据称京东内部基于 JoyAgent 构建了超 1.4 万个智能体,由之而来的实际产品体验,确实要胜过部分创业公司开发的 AI Agent 平台。
上手体验:“数字员工”真的来了
当然,抛开基本的技术概念,当下的 Agent 平台仍处于早期形态,实际的任务执行情况,以及指令遵循情况,都会对使用体验造成影响。好在 JoyAgent 目前也提供了网页版测试 Demo,InfoQ 同时也对 JoyAgent 进行了试用。
今年 AI 应用出现井喷,因此笔者要求 JoyAgent 调研 AI 应用市场的整体情况,Prompt 如下:请围绕当下中国 AI 应用市场做个调研,研究范围包括:AI 应用的市场空间、主流赛道、增长情况、创业团队情况、资本投入情况、技术采用情况。
生成结果如下:


以上为 JoyAgent 生成结果的部分截图
可以看到结果非常模块化,会自动配置图表,且数据源可信度较高,图表符合阅读逻辑与桌面研究习惯。下一步,笔者希望测试下 JoyAgent 的指令遵循能力,因此给出如下 Prompt,希望 JoyAgent 优化部分研究结果:
技术采用部分的研究太过宽泛,请结合最近一个季度主流论文情况,对技术趋势进行研判,预测未来将成为主流的技术方案或方向,并配合图表做解读。

以上为 JoyAgent 生成结果的部分截图
JoyAgent 对单一章节也能实现深度研究,并进一步丰富图表,但在排版上可能会出现一些遮挡的问题。接下来,笔者测试了 JoyAgent 对任务上下文的记忆和理解,希望 JoyAgent 能基于过往研究结果生成创业指导建议,Prompt 如下:
根据以上报告研究结论,我需要为新型创业公司总结未来的创业机会,为其业务发展方向作指引,给予更好地创业孵化帮助,请帮我总结该部分内容

以上为 JoyAgent 生成结果的部分截图
能看到 JoyAgent 输出的结果并非泛泛而谈,虽然不是非常明确的业务建议,但也足够支撑对外交流和讨论,同时,这些研究结果,JoyAgent 都会给出阶段性的 md 文档,方便用户整理采用:

以上为 JoyAgent 提供的部分文档下载截图
如果不希望以网页格式或者 md 格式输出,完全可以直接输出为 PPT 或者 Excel 表格,方便直接做汇报或对外分享:

以上为 JoyAgent 生成结果的部分截图
从 Demo 效果来看,JoyAgent 的体验已经非常接近可以“上岗”的数字员工,任务的完成质量非常不错——类似的研究任务几乎可以直接使用结论,而不必担心存在太多的幻觉或者流程阻塞。
在易用性方面,目前也有许多开发者对 JoyAgent 进行了测试,部署还是比较简单的,启动成本很低,大部分开发者对 JoyAgent 持正面评价,InfoQ 筛选了部分开发者的体验结论供读者参考:
“对于想快速搭建和验证 Agent 应用,又不想从头造轮子的同学来说,可以了解一下,毕竟完全开源”
“总的来说,JoyAgent-JDGenie 更适合那些需要快速搭建多智能体应用、又不想被生态绑定的团队或个人。感兴趣的话可以去 GitHub 看看文档,根据自己的需求判断是否合用~”
“轻量化是另一个优势。不像有些工具依赖特定云平台,它不绑生态,自己就能跑起来,部署和使用的灵活度更高,小团队或个人开发者不用为了用它额外搭一套生态环境。”
也有业务人员在使用 JoyAgent,给出如下评价:
“上次我用 JoyAgent-JDGenie 做了份旅游攻略报告直接生成 PPT 格式,比找外包省了 800 块不过做股票分析时数据更新有点慢像老电视换台要等几秒”
当然,也有开发者表示,JoyAgent 的文档还需要进一步完善,降低新手学习成本。此外,目前添加自定义子智能体需要懂接口开发和代码配置,对纯小白来说不算友好。
但考虑到企业部署 AI Agent 平台的实际情境,这些问题倒也影响不大。
综合来看,在定义 AI Agent 行业标准这一目标上,京东云发布 JoyAgent 动作和决心都不小,且效果非常不错。其核心仍在于:技术实现出色、产品设计灵活,以及完全彻底的开源,方便业内大批公司,完全摆脱平台依赖,在研发资源不足的情况下, 100% 实现本地化部署。
京东自己也给出了来自内部的实际应用案例:
每年 618 全民消费狂欢节,是零售采销最忙碌的时刻。在京东 618 大促中,京东采销经理王明(化名)面临某商品品类的精准预测与库存调配难题。传统方式难以应对区域需求波动,手动流程更是耗时费力。通过 JoyAgentoy,他洞察到华南需求激增,同时实时透视全国八大仓库存,预警华南主力型号库存仅剩 50%。基于此,JoyAgent 自动生成供应链优化报告,明确分仓补货策略(如紧急补货广州仓),并打通采购系统,实现“一键生成采购单”,将采购流程从数天缩短至几分钟。
如果更多的智能制造企业、新零售企业也独立部署了类似的 AI Agent 平台,相信也能在类似的场景中,实现效率和决策上的突破。届时,AI Agent 将正式成为企业级 IT 基础设施的必备模块。
评论