【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

90 后华人团队真来砸程序员饭碗了?推出全球首个 AI 超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

  • 2024-03-13
    北京
  • 本文字数:3906 字

    阅读完需:约 13 分钟

大小:1.87M时长:10:55
90后华人团队真来砸程序员饭碗了?推出全球首个AI超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

作者 | Tina、冬梅、核子可乐

 

今天,一家名为 Cognition AI 的初创新企业发布了他们的最新项目:首个 AI 软件工程师 Devin。

 

在他们的宣传中,Devin 能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复 bug 并完成任务,而且完成这些端到端的任务只需一个指令。

 


在 SWE-bench 基准测试中,Devin 能够解决 13.86%的问题,而 GPT-4 仅能处理 1.74%的问题。更重要的是,Devin 无需人工干预,而 GPT-4 则需要人工提示指定处理文件。

 

Devin 一发布,便引爆了整个科技圈。但在此之前绝大多数人可能根本没听过这家公司,毕竟他们两个月前,才真正在公众面前亮相。然而这家仅有的 10 名员工的公司,从 Peter Thiel 的风险投资公司 Founders Fund 及其他资方(包括前 Twitter 高管 Elad Gil)处成功筹集到 2100 万美元。而他们所看中的,正是 Cognition AI 的创始团队及其主要成果 Devin。

 

Devin 是一款类似于 Copilot 的软件开发助手,但不同于由 GitHub、微软和 OpenAI 联手推动的后者,Devin 身上更有下一代 AI 编程方案的气质。Devin 不仅能够提供编码建议并自动完成部分任务,甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单,只需提交一项任务——比如创建一个网站,展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin 还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复 bug。

 

Devin 能做什么?

 

那么,如此强大的 Devin 都能做些什么?

 

总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。 Devin 可以回忆起每一步的相关背景,随着时间的推移学习并修复错误。

 

研发团队还为 Devin 配备了常见的开发人员工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器,以及人类开发者完成工作时所需的一切其他工具。

 

最后,研发团队还赋予了 Devin 与用户积极协作的能力。 Devin 能够实时报告协作进展,接受反馈,并根据需要与用户一起进行设计选择。

 

下列是 Devin 可以执行的操作示例:

 

  • Devin 可以学习如何使用不熟悉的技术。

 

下列视频演示了 Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Devin 可以端到端地构建和部署应用程序。

     

    Devin 制作了一个模拟生命游戏的互动网站,它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。


    00:00 / 00:00
      1.0x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      • Devin 可以自主查找并修复代码库中的错误。

       

      Devin 帮助 Andrew 维护和调试他的开源相关编程书籍。

       

      00:00 / 00:00
        1.0x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        • Devin 可以解决开源存储库中的错误和功能请求。

         

        只需提供 GitHub 问题的链接,Devin 即可完成所需的所有设置和上下文收集。

         

        00:00 / 00:00
          1.0x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          虽然 Devin 能够出色地完成上述工作,但想要更清楚地了解其性能,研发团队在 SWE-bench 上评估了 Devin ,这是一个具有挑战性的基准测试,要求 Agents 能够解决 Django 和 scikit-learn 这类开源项目中真实存在的 GitHub issue 问题。

           

          Devin 能够完全解决 13.86%的问题,远远超过了之前最先进的 1.96%。即使给出了需要编辑的确切的文件,之前最优秀的模型也只能解决 4.80%的问题。

           


          Devin 的评估是在数据集的随机 25%子集上进行的。Devin 是没有辅助的,而其他所有模型都是在辅助下进行的(意味着要告诉模型哪些文件需要编辑)。

           

          大家怎么看?

           

          前特斯拉人工智能总监,OpenAI 的创始团队成员 Andrej Karpathy 认为这种自动化软件工程有点类似于自动驾驶技术。AI 做得越来越多,人类做得越来越少,但人类仍需提供监督。在软件工程中,进程正在形成类似下面的趋势:

           

          首先,人类手动编写代码

          然后,GitHub Copilot 自动完成几行代码

          接着,ChatGPT 编写代码块

          最终,代码差异会变得越来越大

           


          Karpathy 强调,在 AI 部分之外,还有很多工作需要人类完成,尤其是在 UI/UX 方面。人类如何提供监督?他们关注的是什么?他们如何引导 AI 走向不同的路径?他们如何调试出错的地方?我们很可能会不得不大幅改变代码编辑器。

           

          无论如何,软件工程即将发生重大变化。它将看起来更像是在监督自动化,同时提供高级命令、想法或进展策略。

           

          OpenAI 员工 Jimmy Apples 对 Devin 的出现感到震惊,他表示:“原以为这项技术会再有个两三年才能出现,没想到到来的如此之快,现在才 3 月。”

           


          Devin 的出现让更多人意识到,没有什么工作是一定安全的,他们都有可能被 AI 替代。

           

          有用户在 X 上发文称:“现在没有任何工作是安全的。如果你学习了三年,可能最终你还是无法找到工作。甚至在两年后,可能不再需要新的工人,因为一个工人加上 AI 可以一次性完成 10 到 100 个人的工作。可能现在已经完全自动化了。”

           

          获得 10 块金牌的创始人,以及他们的独特技术方案

           

          Cognition AI 公司拥有三位创始人,首先是 CEO Scott Wu,其二是担任 CTO 的 Steven Hao,而后是首席产品官 Walden Yan。Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。

           

          今年 27 岁的 Wu 是 Neal Wu 的兄弟,Neal Wu 同样供职于 Cognition AI 公司。两兄弟都拥有极为出色的编程能力。Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。

           


          还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频,在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

           





          另外,创始人自述团队共有 10 枚 IOI 金牌。

           


          Scott Wu 表示,这样的背景也让这家年轻的初创公司在 AI 市场上占据了优势。他解释称,“指导 AI 成为一名程序员,实际是一个极具深度的算法问题,要求系统做出复杂决策、把握接下来的多个步骤,正确判断应当选择哪条路线。其实我们多年来一直会在脑中推衍这类问题,现在终于有机会把相关思路编码到 AI 系统当中。”

           

          Cognition AI 在设计 Devin 时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从 AI 的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land 认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技术能力。

           

          从多个方面来看,Devin 似乎的确远远领先于其他编码助手。用户可以要求它直接处理自然语言命令,Devin 则能够正确理解并完成这些工作。在运行过程中,Devin 还会展示它的开发计划、当前使用的命令和代码。如果有些事情看起来出了问题,开发者可以输入进一步提示以引导 AI 解决问题,Devin 则持续调整并接收反馈。目前大多数 AI 系统在此类长周期工作中都很难保持连续性与任务专注性,但 Devin 却能在不偏离轨道的情况下一口气完成数百甚至上千个任务。

           

          在一些网友的个人测试当中,Devin 的确能够在 5 到 10 分钟内从零开始构建起网站,也可以在大致相同的时间内开发出基于 Web 的 Pong 游戏。期间虽然也需要人类介入过几次,通过提示改善游戏中小球运动的物理轨迹,此外还对网站外观做出一点调整,Devin 则始终保持着礼貌的态度并顺利满足了测试人员的新要求。

           

          Silas Alberti 是一位计算机科学家,也是另一家秘密 AI 初创公司的联合创始人。他体验过 Devin,并盛赞其代表着一次技术飞跃。在他看来,Devin 的表现不像是 AI 助手在编写代码,而更像是有真人在处理手头的工作。“这种感觉有很大区别,Devin 是一套能帮我们做事的自主系统。”

           

          Alberti 还提到,Devin 比较擅长项目原型设计、修复 bug 并以图形方式显示复杂数据。“大多数其他助手在四、五个步骤后就「断片」了,但 Devin 在整个工作流程中能够轻松自如地保持住思维主线。”

           

          至少对外人来说,Cognition AI 在如此短的时间内取得重大突破的方式仍然是个未解之谜。Wu 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。“很明显,AI 领域的从业者们长期以来一直在为此而努力。而正确的路线很大程度上取决于模型和方法,特别是怎样让各种要素恰到好处地协调一致。”

           

          Cognition AI 公司并不是唯一一家致力于构建 AI 编码工具的企业。就在上个月,初创公司 Magic AI 刚刚从 Daniel Gross 和 Nat Friedman 等人的风险投资团队处筹集到超 1 亿美元,旨在打造 Gross 宣称的“超级软件工程师”。与那些建立在 OpenAI、Anthropic 等大语言模型之上的公司不同,Magic AI 选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其 AI 系统,因此我们很难将其与 Cognition AI 的产品直接比较。

           

          Cognition AI 方面则拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型,所以哪怕是在具体实现方法上,我们也没法将二者进行对比。

           

          无论出自哪家企业之手,软件开发人员都想知道这些新技术会不会威胁到自己的谋生饭碗,而行业观察者们则好奇 AI 的介入能否颠覆整个软件开发体系。我们有理由认为,这些编程助手能够把开发人员从繁琐枯燥的重复性任务中解放出来,让他们专注于更具创造性的工作。此外,脑袋里灵感不断、但苦于缺乏编程技能的朋友们则可以借此开发自己的网站、服务和应用程序。可话说回来,这些编程助手也可能消灭大量高薪开发者岗位,彻底重塑整个软件行业的商业逻辑。

           

          对于 AI 参与厂商及其投资方来说,Cognition AI 的横空出世也不一定就是一家独大的前兆。我们正处于探索 AI 编码能力及其技能将如何影响传统程序员们的早期阶段。可以想见,这将是一个充满激情与突破的活跃领域,而 AI 编码也凭借其光明的前途与巨大的想象空间吸引到了全球许多最优秀、最睿智的头脑。

           

          参考链接:

          https://www.cognition-labs.com/blog

          https://twitter.com/karpathy/status/1767598414945292695

          https://twitter.com/ScottWu46/status/1767555214104539508

          公众号推荐:

          跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

          2024-03-13 16:589220

          评论 3 条评论

          发布
          用户头像
          以后所有人都是AI的奴隶
          2024-03-20 14:58 · 北京
          回复
          用户头像
          天天吹,低代码平台呢,解决了啥问题。一点都不明白什么叫程序,什么叫系统。人与人之间都忒么沟通不明白,还忒么AI。程徐猿都失业了,还要什么会计、审计、记账、ppt大师、翻译
          2024-03-16 22:20 · 北京
          回复
          用户头像
          程序猿:你不要过来啊!!!!啊!~!!!!
          2024-03-13 17:00 · 北京
          回复
          没有更多了

          bzb矿机软件系统开发

          FIL分币系统源码开发App

          获客I3O6O643Z97

          IPFS怎么挖矿 ipfs有什么用 质押挖矿 fil币

          Apollo配置中心如何实现配置热发布

          慕枫技术笔记

          微服务 后端 配置中心

          你有多少密码是123456

          MySQL从删库到跑路

          密码管理

          hive 与传统数据库对比

          五分钟学大数据

          hive 7月日更

          完了,又火一个项目

          程序员鱼皮

          JavaScript GitHub Vue 大前端 React

          Go 语言中一些不太常见的优化

          Xargin

          性能优化 后端 Go 语言

          第八课作业

          杰语

          iOS开发 · 一套iOS底层试卷-我想和你分享

          iOSer

          ios 面试 iOS底层 iOS 知识体系

          币安链智能合约Dapp系统开发方案

          薇電13242772558

          智能合约

          学点项目管理,对咱程序员很重要~

          后台技术汇

          项目管理 项目管理工具

          Uranus天王星系统软件开发介绍

          小牛XNT挖矿APP系统开发

          架构师实战营 模块八作业(设计消息队列存储消息数据的MySQL表格)

          代廉洁

          架构实战营

          淘筱优软件开发|淘筱优APP系统开发

          Dlx Coin手机挖矿系统软件开发公司

          话题讨论| 帮朋友拼多多助力会导致银行卡被盗刷?

          石云升

          拼多多 话题讨论 7月日更

          🏆「作者推荐」【JVM 性能分析】精心准备了一套 JVM 分析工具的锦囊(中部)

          洛神灬殇

          JVM 性能分析 7月日更

          趣玩吧EVO软件系统开发方案

          如何高效便捷的画出炫酷神经网络图

          不脱发的程序猿

          人工智能 神经网络图工具 神经网络可视化

          果果世界APP系统开发内容

          模块一作业

          上善

          查找——HASH

          若尘

          数据结构 hash

          Spring源码解析 -- SpringWeb请求映射Map初始化

          Java spring 源码解析

          FIL币挖矿合法吗?FIL挖矿会叫停吗?

          Yuumi悠米挖矿APP系统开发模板

          架构实战营 - 模块 8- 作业

          泄矢的呼啦圈

          架构实战营

          yarn 的基本介绍和产生背景

          大数据技术指南

          YARN 7月日更

          TP钱包Defi挖矿系统开发【专业定制】

          获客I3O6O643Z97

          区块链 DeFi质押挖矿 质押挖矿

          Python+OpenCV创建级联文件(Windows7/10环境)

          不脱发的程序猿

          Python OpenCV 目标对象识别 OpenCV创建级联文件

          Ubuntu Server 20.04搭建kafka集群

          玏佾

          kafka kafka配置 kafka数据 Ubuntu20.04

          90后华人团队真来砸程序员饭碗了?推出全球首个AI超级工程师:拥有全栈技能,一个指令就能完成整个开发过程_生成式 AI_Tina_InfoQ精选文章