2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个 AI 程序员”到底造假没?

  • 2024-05-06
    北京
  • 本文字数:2613 字

    阅读完需:约 9 分钟

大小:1.15M时长:06:43
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

 3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

 

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

     


    其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。



    另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。 PhantomBuster 也做了类似的事情。

     

    Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


       Devin 现在似乎更擅长编写网站:

       


      Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。



      Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

       


      不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

      创始人最新访谈,闭口不谈造假风波

       

      对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

       

      就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

       

      • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

      • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

      • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。 Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

      • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

      • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

      • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

       

      卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

       

      “几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

       

      虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

       

      5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

       

      Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。



      “他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

       

      当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

       

      根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。


      “无法透露更多细节”

       

      Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

       

      Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

       

      Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

       

      这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。 

       

      但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

       

      Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

       

      Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

       

      所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

       

      参考链接:

      https://twitter.com/itsandrewgao/status/1786617554724921641

      https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

      https://news.ycombinator.com/item?id=40008109

      https://www.youtube.com/watch?v=OvBiqmcnjHY

      2024-05-06 14:156141

      评论

      发布
      暂无评论
      发现更多内容

      JAVA 设计模式系列——工厂模式

      加百利

      7月日更

      小蚂蚁CFT定制系统开发

      影响视界系统开发|影响视界软件APP开发

      「项目管理100问」之一篇优秀的周报是怎样炼成的?

      万事ONES

      项目 周报 ONES

      云小课 | ModelArts Pro 自然语言处理套件:高效构建行业高精度文本处理模型

      华为云开发者联盟

      AI nlp ModelArts Pro 开发套件 文本处理模型

      Grpc对象转proto代码工具

      Spook

      gRPC proto

      容器化 | 基于 Kubernetes 的新一代 MySQL 高可用架构实现方案

      RadonDB

      MySQL Kubernetes 容器 RadonDB KubeSphere

      开发者必看!你想知道的迁移之道都在这里了

      华为云开发者联盟

      数据库 DRS 数据迁移 GaussDB(for openGauss) 迁移工具

      如何用EasyRecovery找回已经删除的图片?

      淋雨

      EasyRecovery 文件恢复 硬盘数据恢复

      「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之联合索引(十一)

      crudapi

      Vue crud crudapi quasar 联合索引

      Pi network/π币系统APP软件开发搭建

      Bee Network蜂币系统APP开发简介

      SSC公链系统软件开发内容

      想要做音乐玩音乐,有这一个软件就够了!

      懒得勤快

      Watt瓦特系统APP开发搭建

      技术干货 | 录屏采集实现教程——iOS端

      ZEGO即构

      大前端 音视频 RTC iOS端屏幕录制

      规则引擎-ice接入

      waitmoon

      规则引擎

      如何基于阿里云持久内存实例搭建高性价比Redis应用?

      弹性计算百晓生

      redis 阿里云 Redis 核心技术与实战 弹性计算

      阿里云ECS Cloudbuild开发者大赛重磅开启!40万奖金燃爆这个夏天!

      弹性计算百晓生

      云计算 阿里云 开发者大赛

      ONES 课堂:敏捷开发和迭代

      万事ONES

      项目管理 敏捷开发 ONES 迭代

      MNC小黄人系统开发|MNC小黄人软件APP开发

      用 Docker 工具管理 WebAssembly 应用程序

      WasmEdge

      Docker rust 云原生 webassembly

      架构实战营模块七总结

      竹林七贤

      OBC区块链社交软件系统开发内容

      WICC 2021 召开在即 服务开发者生态是大会主要亮点

      融云 RongCloud

      华为前端工程师分享:查明网站访问故障原因,教你4招快速应对

      华为云开发者联盟

      高可用 网站 CDN 云安全 DNS故障

      从零开始学习3D可视化之事件卸载、事件暂停

      ThingJS数字孪生引擎

      大前端 3D可视化 数字孪生 事件

      Java零基础学习路线图(2021版)

      Java入门到架构

      Java 书籍

      架构实战营 模块七作业

      netspecial

      架构实战营

      GTG天天播软件开发|GTG天天播APP系统开发

      【LeetCode每日一题 Day 3】3. 无重复字符的最长子串

      编程熊

      程序员 面试 算法 LeetCode 笔试

      前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?_AI&大模型_褚杏娟_InfoQ精选文章