AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

作者:GruAI

  • 2024-09-09
    北京
  • 本文字数:692 字

    阅读完需:约 2 分钟

大小:357.16K时长:02:01
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。



本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。


Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:

  • Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。

  • Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。

  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。

  • Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。


Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。


随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。

2024-09-09 14:595949

评论

发布
暂无评论
发现更多内容

对中台思维的思考

朱月俊

【架构师训练营 - week10 -1】作业

早睡早起

week 10作业

Geek_z9dmvw

Dubbo微服务调用时序图及微服务架构个人见解

潜默闻雨

芯片破壁者(十二.上):“大头儿子”模式下的韩国半导体

脑极体

微服务&DDD&中台

dony.zhang

中台 微服务 DDD

微服务&DDD

极客大学架构师训练营

Week 10 命题作业

Jeremy

微服务架构一点思考和认识

leis

极客大学架构师训练营 0 期 week 10 作业

chun1123

dubbo DDD

架构师训练营第 0 期第 10 周作业

无名氏

微服务 领域驱动设计

Week 10 学习总结

Jeremy

堆栈神奇应用之CXO让我做一个计算器!!

架构师修行之路

数据结构 堆栈

架构师训练营 Week 10 作业

Wancho

架构师训练营 Week 10 总结

Wancho

week 10 总结

Geek_z9dmvw

Week10总结

leis

第十周课程总结

考尔菲德

极客大学架构师训练营 0 期 week 10 学习笔记

chun1123

学习 DDD

第十周作业

考尔菲德

练习 10-1

闷骚程序员

极客大学架构师训练营 --第10周

李朋

来自面试官的技术面试题

xcbeyond

Java 数据库 面试 自我介绍

架构师训练营第十周作业

吴吴

架构师培训 -10 微服务、秒杀

刘敏

架构师训练营第十周作业

子豪sirius

面试官:您能说说序列化和反序列化吗?是怎么实现的?什么场景下需要它?

xcbeyond

Java 面试 序列化

架构师训练营 - 第十周 - 总结

Anrika

极客大学架构师训练营

架构师训练营Week10作业

Frank Zeng

架构师训练营Week10学习总结

Frank Zeng

Eureka常见问题汇总及注意事项

xcbeyond

Java SpringCloud Eureka 服务注册与发现 常见问题

OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首_AI 工程化_InfoQ精选文章