写点什么

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个 AI 程序员”到底造假没?

  • 2024-05-06
    北京
  • 本文字数:2613 字

    阅读完需:约 9 分钟

大小:1.15M时长:06:43
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

 3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

 

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

     


    其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。



    另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。 PhantomBuster 也做了类似的事情。

     

    Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


       Devin 现在似乎更擅长编写网站:

       


      Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。



      Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

       


      不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

      创始人最新访谈,闭口不谈造假风波

       

      对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

       

      就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

       

      • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

      • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

      • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。 Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

      • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

      • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

      • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

       

      卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

       

      “几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

       

      虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

       

      5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

       

      Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。



      “他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

       

      当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

       

      根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。


      “无法透露更多细节”

       

      Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

       

      Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

       

      Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

       

      这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。 

       

      但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

       

      Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

       

      Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

       

      所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

       

      参考链接:

      https://twitter.com/itsandrewgao/status/1786617554724921641

      https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

      https://news.ycombinator.com/item?id=40008109

      https://www.youtube.com/watch?v=OvBiqmcnjHY

      2024-05-06 14:156114

      评论

      发布
      暂无评论
      发现更多内容

      代码分析体系及Sonarqube平台

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      不懂PO 设计模式?这篇实战文带你搞定 PO

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      一文搞懂测试左移和测试右移的 Why-How-What

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      一文带你了解接口测试价值与体系

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      程序员交接代码中被植入了恶意删除操作,太狠了!

      程序员小毕

      Java 程序员 面试 程序人生 码农

      软件测试 | 测试开发 | 如何利用 xUnit 框架对测试用例进行维护?

      测吧(北京)科技有限公司

      软件测试

      五分钟了解 Databend 全新 SQL 类型系统

      Databend

      开源项目 sql 开源社区 SQL分析

      leetcode 114. Flatten Binary Tree to Linked List 二叉树展开为链表(简单)

      okokabcd

      LeetCode 算法与数据结构

      【xShell 7】强悍的Linux远程链接工具、终端模拟器

      淋雨

      Linux 运维 xshell

      「工作小记」关于业务组件的思考

      叶一一

      前端 React 组件开发 9月月更

      数据可视化系列教程之React组件使用技巧

      云智慧AIOps社区

      前端 React 数据可视化

      代码质量管理平台实战| SonarQube 安装、配置及 JaCoCo、Maven 集成

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      利器 | AppCrawler 自动遍历测试实践(三):动手实操与常见问题汇总

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      一文彻底理解 Cookie、Session、Token

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      阿里云丁宇:以领先的云原生技术,激活应用构建新范式

      阿里巴巴中间件

      阿里云 云原生 应用构建

      Xshell 7 安装激活与换机转移许可证教程详解

      淋雨

      Linux xshell #运维

      从 Linux 内核角度探秘 JDK NIO 文件读写本质

      bin的技术小屋

      Linux jdk nio Linux Kenel 文件I/O

      利器 | REST Assured 实践(二):断言实现

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      无代码开发平台怎么选?选择合适无代码平台的13个关键步骤

      优秀

      无代码平台

      java基础学习:java中的反射

      Java快了!

      java;

      「工作小记」小程序开发的喜怒哀乐

      叶一一

      小程序 前端 9月月更

      你以为Shell只是命令行?读懂这篇文,给你的工作赋能

      霍格沃兹测试开发学社

      隐私计算中的算子是个啥?可视化组合配置的算子解决方案了解下

      Jessica@数牍

      隐私计算 算子 隐私计算性能

      数字藏品系统软件开发

      开源直播系统源码

      NFT 数字藏品 数字藏品系统软件开发 数字藏品app

      由循环开始的前端学习杂谈话事录-sam9029

      Sam9029

      前端 个人博客 成长笔记 9月月更

      利器 | TestNG 与 Junit 对比,测试框架如何选择?

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      云架构系统如何做性能分析?| 实战干货

      霍格沃兹测试开发学社

      软件测试 自动化测试 测试开发

      Java 并发编程解析 | 如何正确理解Java领域中的锁机制,我们一般需要掌握哪些理论知识?

      Java快了!

      Java并发 java;

      利器 | Java 接口自动化测试首选方案:REST Assured 实践 (一)

      霍格沃兹测试开发学社

      隐私计算,让企业大数据走进数据网络时代

      Jessica@数牍

      前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?_AI&大模型_褚杏娟_InfoQ精选文章