写点什么

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

  • 2024-09-17
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

大小:1.03M时长:06:01
国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

在 2024 年 5 月发布的《中国 AGI 市场发展研究报告》中,InfoQ 研究中心将 AI Agent 定义为连接模型层与应用层的中间层,是现阶段大模型落地应用的重要补充。那在过去的两个季度,AI Agent 领域发生了诸多变化,本文希望通过分析技术框架、理想与现实的差距,以及厂商背景,为大家提供对 AI Agent 现状的全面理解。


更多关于 AI Agent 的具体应用案例,欢迎点击「链接」下载完整报告。

AI Agent 技术框架趋于统一


自 2023 年 3 月起,以 AutoGPT 为代表的一系列技术框架发布后,AI Agent 凭借其自主性和问题解决能力,迅速成为科技圈讨论的焦点。在随后的时间里,技术领域陆续推出了多种 AI Agent 技术框架,涵盖通用、环境模拟、软件开发、多模态、翻译、终端交互、数据分析等多种类型。同时,关于单智能体与多智能体的讨论也在持续。



在技术框架的不断探索中,AI Agent 的技术框架认知逐渐统一。大模型作为智能体的大脑,指导规划、工具使用、记忆三大基本能力模块具体行动。并在具体行动过程中,通过与环境、其他智能体以及人类的交互反馈,促进智能体的不断进化。



大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?


从技术框架的角度,我们可以看到大模型在智能体中的重要性,这也引发了一个关键问题:大模型「大脑」是否足够聪明以支持 AI Agent 的实际落地?



作为智能体的大脑,大模型在短短两年内经历了三次主要更新和竞争重点的转变。然而,针对工具调用或真实环境模拟的国内外测试结果显示,当前大模型的表现仍不尽如人意。例如在 WebArena 测试中,GPT-4 的成功率也仅有 14.9%,今年发布的 GPT-4o 也并没有获得明显提升。

注:WebArena 通过构建一个智能体命令和控制环境,通过对大模型在电子商务、社交论坛、软件开发协作和内容管理四类环境中一系列评估任务的功能正确率进行评估。网址:https://webarena.dev/



此外,在 T-Eval 基准测试中,各大模型在推理得分方面普遍偏低且模型间差距明显。

注:T-Eval 大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。


在本次报告的访谈中,来自一线的专家也提及,当前大模型在任务拆解和规划能力方面仍存在明显不足。现阶段,依赖大模型进行独立思考和自主规划路径的方式,尚不足以确保智能体的可靠性和任务成功率。

理想中的智能体和现阶段有哪些差距?


除了规划能力与理想状态存在一定差距外,InfoQ 研究中心还从自主思考、工具调用、记忆和多模态理解等方面,深入分析了理想中的智能体与现阶段智能体之间的差距。这样的技术现状也对 AI Agent 的开发与应用提出了更高的要求,迫使技术团队不断优化系统的可靠性,以实现更加全面的任务执行能力。



目前中国市场中,有哪些 AI Agent 产品已经面世?


InfoQ 研究中心还发现,目前在各个领域,已有众多不同类型的 AI Agent 产品面世,并且不同的产品从例如工作流等不同的方面提供了技术解决方案。因此 InfoQ 研究中心也从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,并形成《中国 AI Agent 产品罗盘》。


《罗盘》仍将持续更新,欢迎各位开发者和读者朋友们积极反馈和持续关注,也欢迎各类厂商参与交流,与 InfoQ 研究中心分享技术和产品的最新动态(联系方式:InfoQ 研究中心首席分析师 姜昕蔚:18618257676)。



参与 AI Agent 市场竞争的厂商背景如何?


除了产品盘点外,InfoQ 研究中心在对市面上对外提供 AI Agent 服务的厂商进行研究,并发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。


  • 大模型创业厂商:以 Dify、澜码科技、面壁智能为代表,借助自身大模型技术基础,满足企业大模型技术实际应用的需求。其主要竞争优势在于对大模型具有技术前瞻视角。其主要通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • 互联网科技厂商:以百度、火山引擎、腾讯为代表,借助借助自身大模型以及 AI 云服务,为客户提供完整的 AI 技术解决方案。因其自身基础设施、云、大模型等 AI 生态建设完整。同时先前多推出了大模型相关的应用,建立了较为良好的用户基础和产品迭代模式。其主要也通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • RPA/流程自动化厂商:以来也科技、实在智能为代表,其主要将 AI Agent 技术思路集成进原有 RPA 产品中,依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的 AI+RPA 类产品和服务。


  • 数字化企业服务商:以用友、金蝶、标普云、数势科技为代表,依托自身长期积累的垂类领域或行业的 Know-how,实现企业内数字化系统的功能升级。对于此类厂商而言,AI Agent 多作为一个功能组件,内置进数字化系统,通过完善的 API 联动生态,实现与原有数字化系统的深度集成,从而让用户无感地体验 AI Agent。


更多关于 AI Agent 在数据分析、营销、金融、文娱游戏等的具体应用案例,欢迎点击「链接」,下载完整报告阅读。InfoQ 研究中心也期望通过持续的内容输出,继续支持中国 AI 领域的发展。


2024-09-17 10:3012548

评论

发布
暂无评论
发现更多内容

外媒编辑评选今年最佳游戏TOP10 《黑神话:悟空》第二

阿拉灯神丁

游戏

环境监测管理系统(源码+文档+部署+讲解)

深圳亥时科技

WiFiSpoof:MAC地址随心换,网络安全再升级!

Rose

集中回答客户关注的数据云场景的四个问题

奇点云

大数据 互联网 数据云

区块链智能合约的开发流程

北京木奇移动技术有限公司

智能合约 区块链技术 软件外包公司

由 Mybatis 源码畅谈软件设计(二):MappedStatement 和 SqlSource

京东科技开发者

【代码合并神器】Sublime Merge,让版本控制更高效!

Rose

阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot

阿里云大数据AI技术

人工智能 elasticsearch chatbot rag AI搜索

微信多开 WechatTweak for Mac(微信多开、消息防撤回工具)安装教程

Rose

合合信息:探索视觉内容安全新前沿

Yan-英杰

Python 人工智能 图像处理

解码通用 AI Agent:七步构建你的智能系统

Baihai IDP

程序员 AI AI Agent

记录一次「OSS上传文件的前置处理机制」实例剖析

京东科技开发者

Newtonsoft.Json/Json.NET:灵活处理序列化中的意外错误

代码忍者

试验数据管理系统(源码+文档+部署+讲解)

深圳亥时科技

由 Mybatis 源码畅谈软件设计(一):序

京东科技开发者

别划走!选择无代码平台的10个理由!

积木链小链

制造业 无代码

FonePaw Android Data Recovery Mac 安卓手机数据恢复软件中文版

Rose

芯盾时代统一身份安全管理的闭环能力建设

芯盾时代

iam 统一身份管理平台 特权账号管理

杭州站来袭-向心力|中外AI应用和出海实战分享沙龙

Zilliz

非结构化数据 AI应用 GenAI AI商业化

NAS局域网移动端视频播放神器 nPlayer for Mac 中文激活版

Rose

电力能源管理系统(源码+文档+部署+讲解)

深圳亥时科技

【干货】商品计划驱动零售盈利性的数据利器

第七在线

600多个mindmanager模板素材(思维导图模板合集)

Rose

最佳GTD时间效率工具 OmniFocus Pro 4永久激活版

Rose

LUMEVAX会议一体机:开启智能会议新征程

cts喜友科技

视频会议

Bartender 5:Mac菜单栏整理大师,提升工作效率必备!

Rose

简化的架构治理:使用 NocoBase 构建应用程序目录

NocoBase

开源 低代码 无代码 Web应用 治理架构

Mac用户必备!StarUML助你高效建模设计

Rose

Perfectly Clear Video:专业级视频清晰化,轻松打造视觉盛宴!

Rose

电商独立站运营:构建成功的数字化商业据点

科普小能手

数据挖掘 电商 独立站 API 接口 API 测试

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?_AI&大模型_崔白洁 | InfoQ研究中心_InfoQ精选文章