写点什么

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

  • 2024-09-17
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

大小:1.03M时长:06:01
国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

在 2024 年 5 月发布的《中国 AGI 市场发展研究报告》中,InfoQ 研究中心将 AI Agent 定义为连接模型层与应用层的中间层,是现阶段大模型落地应用的重要补充。那在过去的两个季度,AI Agent 领域发生了诸多变化,本文希望通过分析技术框架、理想与现实的差距,以及厂商背景,为大家提供对 AI Agent 现状的全面理解。


更多关于 AI Agent 的具体应用案例,欢迎点击「链接」下载完整报告。

AI Agent 技术框架趋于统一


自 2023 年 3 月起,以 AutoGPT 为代表的一系列技术框架发布后,AI Agent 凭借其自主性和问题解决能力,迅速成为科技圈讨论的焦点。在随后的时间里,技术领域陆续推出了多种 AI Agent 技术框架,涵盖通用、环境模拟、软件开发、多模态、翻译、终端交互、数据分析等多种类型。同时,关于单智能体与多智能体的讨论也在持续。



在技术框架的不断探索中,AI Agent 的技术框架认知逐渐统一。大模型作为智能体的大脑,指导规划、工具使用、记忆三大基本能力模块具体行动。并在具体行动过程中,通过与环境、其他智能体以及人类的交互反馈,促进智能体的不断进化。



大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?


从技术框架的角度,我们可以看到大模型在智能体中的重要性,这也引发了一个关键问题:大模型「大脑」是否足够聪明以支持 AI Agent 的实际落地?



作为智能体的大脑,大模型在短短两年内经历了三次主要更新和竞争重点的转变。然而,针对工具调用或真实环境模拟的国内外测试结果显示,当前大模型的表现仍不尽如人意。例如在 WebArena 测试中,GPT-4 的成功率也仅有 14.9%,今年发布的 GPT-4o 也并没有获得明显提升。

注:WebArena 通过构建一个智能体命令和控制环境,通过对大模型在电子商务、社交论坛、软件开发协作和内容管理四类环境中一系列评估任务的功能正确率进行评估。网址:https://webarena.dev/



此外,在 T-Eval 基准测试中,各大模型在推理得分方面普遍偏低且模型间差距明显。

注:T-Eval 大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。


在本次报告的访谈中,来自一线的专家也提及,当前大模型在任务拆解和规划能力方面仍存在明显不足。现阶段,依赖大模型进行独立思考和自主规划路径的方式,尚不足以确保智能体的可靠性和任务成功率。

理想中的智能体和现阶段有哪些差距?


除了规划能力与理想状态存在一定差距外,InfoQ 研究中心还从自主思考、工具调用、记忆和多模态理解等方面,深入分析了理想中的智能体与现阶段智能体之间的差距。这样的技术现状也对 AI Agent 的开发与应用提出了更高的要求,迫使技术团队不断优化系统的可靠性,以实现更加全面的任务执行能力。



目前中国市场中,有哪些 AI Agent 产品已经面世?


InfoQ 研究中心还发现,目前在各个领域,已有众多不同类型的 AI Agent 产品面世,并且不同的产品从例如工作流等不同的方面提供了技术解决方案。因此 InfoQ 研究中心也从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,并形成《中国 AI Agent 产品罗盘》。


《罗盘》仍将持续更新,欢迎各位开发者和读者朋友们积极反馈和持续关注,也欢迎各类厂商参与交流,与 InfoQ 研究中心分享技术和产品的最新动态(联系方式:InfoQ 研究中心首席分析师 姜昕蔚:18618257676)。



参与 AI Agent 市场竞争的厂商背景如何?


除了产品盘点外,InfoQ 研究中心在对市面上对外提供 AI Agent 服务的厂商进行研究,并发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。


  • 大模型创业厂商:以 Dify、澜码科技、面壁智能为代表,借助自身大模型技术基础,满足企业大模型技术实际应用的需求。其主要竞争优势在于对大模型具有技术前瞻视角。其主要通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • 互联网科技厂商:以百度、火山引擎、腾讯为代表,借助借助自身大模型以及 AI 云服务,为客户提供完整的 AI 技术解决方案。因其自身基础设施、云、大模型等 AI 生态建设完整。同时先前多推出了大模型相关的应用,建立了较为良好的用户基础和产品迭代模式。其主要也通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • RPA/流程自动化厂商:以来也科技、实在智能为代表,其主要将 AI Agent 技术思路集成进原有 RPA 产品中,依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的 AI+RPA 类产品和服务。


  • 数字化企业服务商:以用友、金蝶、标普云、数势科技为代表,依托自身长期积累的垂类领域或行业的 Know-how,实现企业内数字化系统的功能升级。对于此类厂商而言,AI Agent 多作为一个功能组件,内置进数字化系统,通过完善的 API 联动生态,实现与原有数字化系统的深度集成,从而让用户无感地体验 AI Agent。


更多关于 AI Agent 在数据分析、营销、金融、文娱游戏等的具体应用案例,欢迎点击「链接」,下载完整报告阅读。InfoQ 研究中心也期望通过持续的内容输出,继续支持中国 AI 领域的发展。


2024-09-17 10:3012196

评论

发布
暂无评论
发现更多内容

三菱课堂笔记 变频器A800系列基础(操作篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 以太网(MELSEC iQ-R系列篇)

万里无云万里天

自动化 三菱

30 天 52% 回报:GPT-4o 量化交易机器人

俞凡

人工智能 交易

大家来决定:python-office运行时的提示信息,要不要删除?

程序员晚枫

Python 开源 自动化办公

三菱课堂笔记 编程基础

万里无云万里天

自动化 三菱

三菱课堂笔记 编程应用(梯形图语言 MELSEC iQ-R系列篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 串行通讯(MELSEC iQ-R系列篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 GOT入门

万里无云万里天

自动化 三菱

三菱课堂笔记 GX Works2基础

万里无云万里天

自动化 三菱

码住!详解时序数据库不同分类与性能对比

Apache IoTDB

码住!详解时序数据库不同分类与性能对比

Apache IoTDB

三菱课堂笔记 编程基础(ST语言篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 变频器维护(800系列对应版)

万里无云万里天

自动化 三菱

三菱课堂笔记 机械安全入门

万里无云万里天

自动化 三菱

三菱课堂笔记 配电控制设备基础(低压断路器篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 FA网络入门

万里无云万里天

自动化 三菱

三菱课堂笔记 MELSEC F系列基础

万里无云万里天

自动化 三菱

学习笔记:快速成长的几点方法

老张

成长 学习笔记 成长路线

三菱课堂笔记 变频器入门

万里无云万里天

自动化 三菱

三菱课堂笔记 变频器A800系列基础(功能篇)

万里无云万里天

自动化 三菱

三菱课堂笔记 过程PLC入门

万里无云万里天

自动化 三菱

三菱课堂笔记 变频器节能

万里无云万里天

自动化 三菱

三菱课堂笔记 过程PLC基础

万里无云万里天

自动化 三菱

三菱课堂笔记 配电控制设备基础(电磁接触器篇)

万里无云万里天

自动化 三菱

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?_AI&大模型_InfoQ研究中心_InfoQ精选文章