写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595931

评论

发布
暂无评论
发现更多内容

苦熬3个月,阿里Java岗五面,成功上岸获offer!Java面试题库分享

程序员高级码农

Java 程序员 后端 java面试 Java面试题

澳门某客户:通过HAP平台整合18个系统,节省20%仓储成本

明道云

从高代码到低代码,火山引擎大模型产品、能力再升级!

极客天地

微店API接口深度解析:如何高效获取商品详情及Python代码示例

代码忍者

微店商品详情API接口 微店商品列表API

OpenTiny 年度贡献者活动评选征集启动

OpenTiny社区

开源 前端 OpenTiny

日本经济新闻电子版:付费数字订阅用户数在日本率先达到100万

财见

智源研究院与腾讯达成战略合作 推动大模型技术前沿探索和应用落地

智源研究院

深入了解 ByConity的BSP模式:云原生数据仓库的创新实践

数字扫地僧

ByConity

基于豆包·视频生成模型打造创新体验,即梦成为“想象力的相机”

极客天地

深入了解京东API接口:如何高效获取商品详情与SKU信息

代码忍者

京东评论API接口 京东商品API

我国首颗可重复使用返回式技术试验卫星成功发射|数字孪生技术助力运载火箭仿真验证系统革命

DevOps和数字孪生

智源发布FlagEval“百模”评测结果 丈量模型生态变局

智源研究院

2000道面试必问的Java面试八股文及答案整理(2024版)

Summer

Java 程序员 面试 大厂 八股文

开始报名,龙蜥社区系统运维联盟MeetUp暨iAutoBASE专题论坛来啦

OpenAnolis小助手

操作系统 龙蜥meetup 龙蜥系统运维联盟

SimLab技巧丨自动特征识别工具使用指南

Altair RapidMiner

制造 仿真 结构 altair Hypermesh

阿里妈妈商品详情API接口:开发、应用与收益的深度剖析

科普小能手

数据挖掘 数据分析 API 接口 API 测试 阿里妈妈

英特尔与生态伙伴打造AI时代智算新引擎

E科讯

你敢信?清华毕业大佬用了一个坦克大战项目就讲完了23种设计模式

程序员高级码农

Java 编程 程序员 java面试 Java面试题

提升海外SaaS访问效率的最佳方案

Ogcloud

网络加速 SD-WAN SD-WAN组网 海外网络加速 SD-WAN国际专线

新华丝路:《球城市热线服务与治理效能评测报告》周三在京发布

财见

智源大模型通用算子库FlagGems四大能力升级 持续赋能AI系统开源生态

智源研究院

短期面试突击攻略大全!2025最全Java面试题目合集

Summer

Java 程序员 面试 大厂 八股文

解锁未来:深入探索去中心化应用程序(DApps)的潜力与挑战

chainwiseweb3

去中心化钱包 区块链技术开发 dapp开发 #Web3 DApps开发

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章