阿里云ODPS普惠算力再升级,Data+AI全产品降价低至59元! 了解详情
写点什么

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

  • 2024-09-17
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

大小:1.03M时长:06:01
国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?

在 2024 年 5 月发布的《中国 AGI 市场发展研究报告》中,InfoQ 研究中心将 AI Agent 定义为连接模型层与应用层的中间层,是现阶段大模型落地应用的重要补充。那在过去的两个季度,AI Agent 领域发生了诸多变化,本文希望通过分析技术框架、理想与现实的差距,以及厂商背景,为大家提供对 AI Agent 现状的全面理解。


更多关于 AI Agent 的具体应用案例,欢迎点击「链接」下载完整报告。

AI Agent 技术框架趋于统一


自 2023 年 3 月起,以 AutoGPT 为代表的一系列技术框架发布后,AI Agent 凭借其自主性和问题解决能力,迅速成为科技圈讨论的焦点。在随后的时间里,技术领域陆续推出了多种 AI Agent 技术框架,涵盖通用、环境模拟、软件开发、多模态、翻译、终端交互、数据分析等多种类型。同时,关于单智能体与多智能体的讨论也在持续。



在技术框架的不断探索中,AI Agent 的技术框架认知逐渐统一。大模型作为智能体的大脑,指导规划、工具使用、记忆三大基本能力模块具体行动。并在具体行动过程中,通过与环境、其他智能体以及人类的交互反馈,促进智能体的不断进化。



大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?


从技术框架的角度,我们可以看到大模型在智能体中的重要性,这也引发了一个关键问题:大模型「大脑」是否足够聪明以支持 AI Agent 的实际落地?



作为智能体的大脑,大模型在短短两年内经历了三次主要更新和竞争重点的转变。然而,针对工具调用或真实环境模拟的国内外测试结果显示,当前大模型的表现仍不尽如人意。例如在 WebArena 测试中,GPT-4 的成功率也仅有 14.9%,今年发布的 GPT-4o 也并没有获得明显提升。

注:WebArena 通过构建一个智能体命令和控制环境,通过对大模型在电子商务、社交论坛、软件开发协作和内容管理四类环境中一系列评估任务的功能正确率进行评估。网址:https://webarena.dev/



此外,在 T-Eval 基准测试中,各大模型在推理得分方面普遍偏低且模型间差距明显。

注:T-Eval 大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。


在本次报告的访谈中,来自一线的专家也提及,当前大模型在任务拆解和规划能力方面仍存在明显不足。现阶段,依赖大模型进行独立思考和自主规划路径的方式,尚不足以确保智能体的可靠性和任务成功率。

理想中的智能体和现阶段有哪些差距?


除了规划能力与理想状态存在一定差距外,InfoQ 研究中心还从自主思考、工具调用、记忆和多模态理解等方面,深入分析了理想中的智能体与现阶段智能体之间的差距。这样的技术现状也对 AI Agent 的开发与应用提出了更高的要求,迫使技术团队不断优化系统的可靠性,以实现更加全面的任务执行能力。



目前中国市场中,有哪些 AI Agent 产品已经面世?


InfoQ 研究中心还发现,目前在各个领域,已有众多不同类型的 AI Agent 产品面世,并且不同的产品从例如工作流等不同的方面提供了技术解决方案。因此 InfoQ 研究中心也从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,并形成《中国 AI Agent 产品罗盘》。


《罗盘》仍将持续更新,欢迎各位开发者和读者朋友们积极反馈和持续关注,也欢迎各类厂商参与交流,与 InfoQ 研究中心分享技术和产品的最新动态(联系方式:InfoQ 研究中心首席分析师 姜昕蔚:18618257676)。



参与 AI Agent 市场竞争的厂商背景如何?


除了产品盘点外,InfoQ 研究中心在对市面上对外提供 AI Agent 服务的厂商进行研究,并发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。


  • 大模型创业厂商:以 Dify、澜码科技、面壁智能为代表,借助自身大模型技术基础,满足企业大模型技术实际应用的需求。其主要竞争优势在于对大模型具有技术前瞻视角。其主要通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • 互联网科技厂商:以百度、火山引擎、腾讯为代表,借助借助自身大模型以及 AI 云服务,为客户提供完整的 AI 技术解决方案。因其自身基础设施、云、大模型等 AI 生态建设完整。同时先前多推出了大模型相关的应用,建立了较为良好的用户基础和产品迭代模式。其主要也通过提供 AI Agent 应用市场 & 开发平台,为用户提供构建 AI agent 的便捷服务。


  • RPA/流程自动化厂商:以来也科技、实在智能为代表,其主要将 AI Agent 技术思路集成进原有 RPA 产品中,依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的 AI+RPA 类产品和服务。


  • 数字化企业服务商:以用友、金蝶、标普云、数势科技为代表,依托自身长期积累的垂类领域或行业的 Know-how,实现企业内数字化系统的功能升级。对于此类厂商而言,AI Agent 多作为一个功能组件,内置进数字化系统,通过完善的 API 联动生态,实现与原有数字化系统的深度集成,从而让用户无感地体验 AI Agent。


更多关于 AI Agent 在数据分析、营销、金融、文娱游戏等的具体应用案例,欢迎点击「链接」,下载完整报告阅读。InfoQ 研究中心也期望通过持续的内容输出,继续支持中国 AI 领域的发展。


2024-09-17 10:3012138

评论

发布
暂无评论
发现更多内容

IntelliJ IDEA Ultimate 配置 PHP 拦截器中 Xdebug 扩展应该怎么填

HoneyMoose

外包学生管理系统架构设计文档

五月雨

架构实战营 「架构实战营」

RocketMQ-Streams 首个版本发布,轻量级计算的新选择

阿里巴巴云原生

Khronos 会议干货 | WebGPU 1.0 即将发布

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

架构学习【03】——外包学生管理系统的架构文档

tiger

架构实战营

绿色数据中心“东数西算”全面启动!八大枢纽十大集群 - 涉及高性能计算,数据集群,水冷散热

GPU算力

web前端开发nodejs基本原理_前端培训

@零度

node.js 前端开发

IntelliJ IDEA Ultimate 配置 PHP 拦截器

HoneyMoose

uni-app技术分享| uni-app常见问题(一)

anyRTC开发者

uni-app 音视频 WebRTC 移动开发 实时通讯

一句话告诉您什么是运维?以及如何运维才能事半功倍?

行云管家

运维 IT运维 自动化运维

ShardingSphere 助力当当 WMS:订单效率提升 30%、节约成本上千万

SphereEx

数据库 开源 ShardingSphere wms SphereEx

Logo小变动,心境大不同,SVG矢量动画格式网站Logo图片制作与实践教程(Python3)

刘悦的技术博客

前端 动画 SVG Python3 svg图

外包学生管理系统架构设计文档

风中奇缘

架构实战课 「架构实战营」

IntelliJ IDEA 在校验 PHP Debug 配置的时候提示 URL 无法访问

HoneyMoose

前后端分离项目,如何解决跨域问题?

沉默王二

Java 前端 后端 跨域

如何在 Vue 中导出数据至 Excel 表格 - 卡拉云

蒋川

Vue Vue 3 vue admin

如果写作平台不叫写作平台,他应该叫……?

InfoQ写作社区官方

写作平台 创意 话题讨论 热门活动

灵雀云加入,龙蜥社区迎来国内领先的企业级PaaS服务商

OpenAnolis小助手

Linux 开源 云原生 PaaS

安全领域权限模型

alibeer

学生管理系统详细架构设计文档

晨亮

「架构实战营」

数据平台与Flink任务运行原理介绍

云智慧AIOps社区

redis 云计算 大数据 kafka Flink 平台

IntelliJ IDEA 在校验 PHP Debug 配置的时候提示 Xdebug 扩展没有载入

HoneyMoose

linux服务器是什么?如何快捷安全管理?

行云管家

运维 服务器

阿里巴巴的Java开发手册(黄山版)来了

Geek_rze78a

Java 阿里巴巴面经总结

java面试jvm调优的意义_java培训

@零度

JVM JAVA开发

大数据开发join的运行原理_大数据培训

@零度

hive 大数据开发

如何在Linux解压缩(打开)Gz 文件?

Ethereal

基于CC2530设计的自动晾衣杆

DS小龙哥

2月月更

你才二十几岁呀,怎么眼里没有光了呢?

架构精进之路

随笔 日常感悟 2月日更

尚硅谷MyBatis新版视频教程发布

@零度

Java mybatis

重新理解“无容灾不上云”:应用多活将成为云原生容灾新趋势

阿里巴巴云原生

阿里云 开源 云原生

国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗?_AI&大模型_InfoQ研究中心_InfoQ精选文章