写点什么

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个 AI 程序员”到底造假没?

  • 2024-05-06
    北京
  • 本文字数:2613 字

    阅读完需:约 9 分钟

大小:1.15M时长:06:43
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

 3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

 

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

     


    其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。



    另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。 PhantomBuster 也做了类似的事情。

     

    Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


       Devin 现在似乎更擅长编写网站:

       


      Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。



      Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

       


      不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

      创始人最新访谈,闭口不谈造假风波

       

      对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

       

      就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

       

      • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

      • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

      • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。 Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

      • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

      • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

      • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

       

      卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

       

      “几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

       

      虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

       

      5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

       

      Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。



      “他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

       

      当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

       

      根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。


      “无法透露更多细节”

       

      Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

       

      Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

       

      Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

       

      这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。 

       

      但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

       

      Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

       

      Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

       

      所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

       

      参考链接:

      https://twitter.com/itsandrewgao/status/1786617554724921641

      https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

      https://news.ycombinator.com/item?id=40008109

      https://www.youtube.com/watch?v=OvBiqmcnjHY

      2024-05-06 14:155573

      评论

      发布
      暂无评论
      发现更多内容

      安全护卫联手:JWT鉴权与Vue路由守卫,确保敏感资源访问权限完全掌控

      测吧(北京)科技有限公司

      测试

      Pandas:如何让你的代码性能飙升

      快乐非自愿限量之名

      pandas 代码 数据可视化

      海外社交营销为什么用云手机?不用普通手机?

      Ogcloud

      云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

      Python如何接收键盘按键

      霍格沃兹测试开发学社

      Covalent Network借助大规模的历史Web3数据集,推动人工智能发展

      股市老人

      打造安全壁垒:JWT鉴权提升应用的访问安全性

      测吧(北京)科技有限公司

      测试

      跨平台应用程序开发如何选择框架

      雪奈椰子

      助力客户效益增长近10倍!即构宝藏算法是如何做到的?

      ZEGO即构

      人工智能 AI 算法 直播技术 虚拟背景

      那些放弃Jira的企业都找了哪些替代工具?盘点15款

      爱吃小舅的鱼

      项目管理 Jira 项目管理工具

      云手机在海外电商中的应用优势

      Ogcloud

      云手机 海外云手机 云手机海外版 电商云手机

      阿里云 SelectDB 联合 DTS ,一键实现 TP 数据实时入仓

      SelectDB

      大数据 阿里云 云数据库 数据迁移 #数据库

      Axios拦截器:是前端优化的利器还是不可忽视的安全漏洞源?

      测吧(北京)科技有限公司

      测试

      架构实战营 - 模块三作业

      满心

      架构实战营

      探索ORM技术:如何轻松管理数据库并提高操作效率?

      测吧(北京)科技有限公司

      测试

      Python教程:生成Excel并更改表头

      霍格沃兹测试开发学社

      Axios拦截器:优化前后端交互的利器还是纸老虎?

      测吧(北京)科技有限公司

      测试

      万界星空科技MES系统在智能生产中的重要作用

      万界星空科技

      工业互联网 制造业 智能制造 mes 万界星空科技

      订阅GPT4之前必须了解的十件事情-【新手向】ChatGPT入门指南

      蓉蓉

      openai ChatGPT GPT-4

      CloudIDE就是未来编程的新风向

      Tp_jh

      产品 编程语言 研发效能 企业动态 云端开发

      如何快速运用iPaas与协议进行接口对接

      RestCloud

      ipaas 接口对接 协议对接

      Python教程:如何向Word中添加表格

      霍格沃兹测试开发学社

      PHP 服务实现监控可观测性最佳实践

      观测云

      php

      云手机为企业出海提供多元化解决方案

      Ogcloud

      云手机 海外云手机 云手机海外版 国外云手机 跨境云手机

      低代码与前端开发架构:重塑软件开发的未来

      快乐非自愿限量之名

      前端开发 前端架构 低代码

      Flask蓝图与ORM技术:神奇的组合还是无用功?

      测吧(北京)科技有限公司

      测试

      1688API接口推荐:1688口令转换真实链接接口 审核中

      tbapi

      1688API接口 1688口令接口 1688淘口令接口

      直播预约丨《袋鼠云大数据实操指南》No.1:从理论到实践,离线开发全流程解析

      袋鼠云数栈

      大数据 离线开发 离线开发离线计算 数据实操

      低代码开发与数据可视化

      不在线第一只蜗牛

      低代码 数据可视化

      Vue路由守卫:是破解安全漏洞的关键还是新的安全风险?

      测吧(北京)科技有限公司

      测试

      看你能解锁哪些新身份?OpenHarmony大使、MVP、金码达人在线申报

      OpenHarmony开发者

      使用Python爬取豆瓣电影影评:从数据收集到情感分析

      霍格沃兹测试开发学社

      前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?_AI&大模型_褚杏娟_InfoQ精选文章