写点什么

Claude Sonnet 3.5 口碑爆棚!10 倍速开发,“2 个月内用 Rust 从零构建完一款产品”

  • 2024-07-22
    北京
  • 本文字数:3660 字

    阅读完需:约 12 分钟

大小:1.68M时长:09:48
Claude Sonnet 3.5 口碑爆棚!10倍速开发,“2个月内用Rust 从零构建完一款产品”

昨天,技术创始人 lapurita 关于“使用 Claude Sonnet 3.5 实现了 10 倍开发速度”的帖子火了。

 

“我震惊地发现,原来 Sonnet 3.5 可以让开发速度变得这么快!”lapurita 说道。“我没有夸大所有大模型,因为这是第一个让我真正用起来感到舒适的大模型。我可以比之前快 10 倍地实现市面上大部分热门应用的技术部分。我仍然需要做架构和基础设施的决策,但像编写 UI 组件这样的事情,现在真的比之前快了 10 倍,这让迭代速度变得非常快。”

 

或许 lapurita 的说法引起了开发者共鸣,大家纷纷转发赞同 lapurita 的说法。一时间,OpenAI 竞争对手的 Claude 模型风头无两。

 

不止 10 倍?

 

根据 lapurita 的介绍,现在他开发一个功能的工作流程基本上是:

 

  • 深入思考功能,也可能会与 Claude 一起讨论;

  • 编写基本规格(通常只是一些句子和要点),并与 Claude 一起迭代;

  • 确保为 Claude 提供所有相关的上下文,并请求代码实现。

 

lapurita 介绍,他会先在 Claude 中上传相关文件并创建相关项目,其中最重要的文件是其称之为“main context”的文件,该文件非常明确地指定了应用程序当前正在做什么以及在下一个版本中应该做什么。lapurita 还指定了所有的技术决策以及选择它们的原因,同时解释了希望 Claude 遵循的更具体的代码设计模式(例如如何保持服务器状态和客户端状态同步)。lapurita 还有一个包含整个数据库模式,以及一些示例 API 端点的文件。这些文件基本上总结了迄今为止关于项目的所有信息。

 

在 Claude 的“项目”中,用户可以创建多个对话。lapurita 给到的一个技巧提示是,在开始一个新功能时就建立多个对话,否则上下文窗口会因为无关紧要的东西而变得杂乱,从而占用消息限制。开始一个新对话时,“main context”文件就非常重要。

 

lapurita 提到的一个例子是前几天他为内容创建的一个类似 Instagram Reels/TikTok 的 feed 流。“这并不是什么火箭科学,但我对 SwiftUI 没有太多经验,这里有一些半高级的动画/布局的东西,但我与 Claude 做出一个完全可用的实现(符合我的 API 规范并与实际数据库合作)只需要 20 分钟。重要的是,生成的代码遵循了我描述的模式,并且与我代码库中的其他部分一致(所以这实际上是我会写出来的代码,只是加速了),而这是我在使用其他模型时会遇到的问题。”

 

lapurita 认为,使用者非常了解应用程序的架构,包括大体架构和更具体的代码(比如如何处理数据获取的设计模式等)是非常重要的。如果没有这方面的经验,而只是使用 Claude,代码库很可能会变得过于混乱和复杂,导致之后难以修改。

 

“这是我之前遇到过的陷阱,我认为这也是那些仍然抗拒将大模型用于自动化以外用途的程序员会遇到的问题。”lapurita 表示,发生上述情况时,开发者不可避免地会想自己应该从一开始就自己编程。但如果开发者始终引导 Claude 按照自己的意愿行事,并跟上和理解生成的代码,这种情况就不会发生。

 

“跟上 Claude 给出的代码非常重要,有时我一整个会话都只是阅读生成的代码,这样我就能有像自己写出来的代码一样的感觉。”lapurita 说道。

 

这种构建产品方式的本质是尝试围绕新的软件生产方式调整开发人员工具和流程。当前,不断来回引导大模型做开发者真正想做的事情、缺乏处理部署等能力是这种开发方式的新瓶颈。

 

“实际上,我认为即使 Sonnet 3.5 没有进一步发展,只要将其‘正确’集成(而不仅仅是放入聊天框)到我们用于生产软件的其他东西,我们就可以从 10 倍提高到 20-50 倍。”开发者 Fred Weitendorf 表示。

 

Weitendorf 指出,确实必须能够“缩小范围”才能避免产生一团乱糟糟的东西,但更难的问题是,使用者仍然必须知道要指定什么。

 

作为一名经验丰富的程序员,lapurita 对即将编写的代码的总体结构有着强烈的直觉,这就是为什么他基本上可以将 sonnet 3.5 当作“编译器”来使用。但缺乏经验的人是通过反复试验来编写软件,并且不太善于表达自己想要的东西,所以他们不能以这种方式使用 Claude,否则可能还会减慢他们的速度。

 

此外,即使是经验丰富的工程师也很难写出好的提示,这也成为大模型构建产品时的阻碍。

 

lapurita 指出,他的使用经验对初创公司非常适用,但对大公司来说就不是这样了。“在我所在的公司,虽然大模型仍然有所帮助,但远不如在构建新产品时那么有用。我认为,主要是因为我无法获得相同的架构概述,因此很难为大模型提供所有相关上下文。”

 

但无论如何,lapurita 对这个工具非常满意,因为它让自己可以专注于应用程序更困难的部分。

 

EverArt 创始人 Pietro Schirano 转发了 lapurita 的帖子并称,他第一次创业,9 个月内每月收入 10 万美元,是“Sonnet 3.5 改变了一切。”

 

开发者 Sully Omarr 也转发帖子并表示,“我们 50% 的代码库完全由大模型编写,预计到明年这个比例将达到约 80%。有了 Sonnet ,我们的交付速度非常快,感觉我们的员工人数一夜之间增加了三倍。不使用 Claude 3.5 编写代码?那估计会被使用 Claude 3.5 的团队击败(比如我们)。” 他认为,2-3 年内大模型编写的代码会被抽象出来,但开发者仍然需要知道如何编写代码。

 

“GPT-4 不再是最好的模型”

 

“我是 GPT 用户,我应该切换到 Claude 吗?”帖子下面有人问到。“是的,它使编码变得简单得多。”有网友直接回复。

 

不得不说,有一批用户已经开始转向了 Claude。“我取消了一年多前订阅的 GPT-4 订阅,改成订阅 Claude。没有手机应用程序,也没有 GPTs 或自定义说明(在网络版本中 - 不使用 API)。但老实说,我并不关心这些。我主要用它写作和集思广益,Claude 3(甚至 Gemini)的表现优于 GPT。”

 

如今,GPT-4o 的使用者也在动摇:“Claude 真的比 GPT-4o 好很多吗?我之前用过 Claude Opus 但印象并不深刻,而且我还使用 OpenAI API。除非真的值得,否则我不想同时为这两项服务付费,我现在整天都在使用 GPT。”

 

“如果你擅长编码提示,那么 Claude Sonnet 3.5 绝对适合。”这是该网友得到的回答。

 

相信很多人已经对 OpenAI 与 Anthropic 之间的竞争故事有所了解:Anthropic 七位联合创始人此前都曾在 OpenAI 工作过。Anthropic 首席执行官 Dario Amodei 还曾担任 OpenAI 的研究副总裁,他甚至撰写了 OpenAI 章程的大部分内容,这份文件承诺实验室及其员工将致力于安全开发强大的人工智能。

 

Claude 系列模型在开发人员中的好口碑也不是一天两天了。在 Claude 3 发布不久后,工程师 Singularity 就称,“Claude 3 非常出色,实际上能生成出比 ChatGT 质量更好的代码。”

 

Singularity 指出,Claude 有比 GPT 更好的上下文能力。“我可以将我的文件输入 Claude 并告诉它进行更改,它甚至会记住这些文件中的代码并记住我们所做的更改,在被告知调用一个非常古老的代码片段后,它可以完美地实现调用。”

 

根据介绍,Claude 3 模型将其前代的上下文窗口大小翻倍,为用户提供 20 万个 token 的上下文窗口,相当于大约 15 万个单词。Claude 3 Opus 模型在特定用例下还支持高达 100 万个 token 的输入。

 

其次,Singularity 表示,Claude 在各种语言上的表现也更好。“我讨厌的一件事是每个人都一直用 Python 测试它,这证明 Python 并没有那么难。我用 Rust、Go、Haskell 和 C++ 编写代码, Claude 的 Rust 能力比 GPT-4 好太多,GPT 对 Rust 几乎无能为力。两者在 Go 上差不多,在 C++ 和 Haskell 上,Claude 比 GPT-4 要好。”

 

开发者 joowani 在 lapurita 最新的帖子下面也有这方面的表达,“我使用 Copilot 和 Claude Sonnet 3.5,它们极大地帮助我学习 Rust,并在短短 2 个月内从头开始构建了市场上最快的产品。”

 

Singularity 还指出 Claude 有比 GPT 更少的幻觉。“我厌倦了 OpenAI 粉丝们对 Claude 的轻视。它真的非常好,连 Sonnet 都很好。它在代码中做得较少的一件事是产生幻觉,当然它仍然有,但远不如 GPT-4 那么多。GPT- 4 编造一些疯狂的函数,即使你告诉它不存在,它还是会这样做。Claude 也会给出不存在的函数,但会倾听下一个提示词。”

 

“GPT-4 不再是最好的模型,这是事实。”有网友在 5 月前的帖子下评论道。现在,越来越多的网友开始展示自己使用 Claude 的成果。

 

开发者 Dave 展示了自己用 Claude 3.5 Sonnet 的构建成果,内部工具 Voice Notes AI 一共 1294 行代码,仅花了 Dave 两个小时的时间:

 


还有网友展示了自己用 Claude 3.5 Sonnet 仅花了 2 分钟的时间就从一张截图创建了功能齐全的 ChatGPT 克隆版。在最近的微软蓝屏事件中,AIPRM Corp 首席工程师 Tibor Blaho 展示了用 Claude 制作的非 Windows 用户的 Crowdstrike Falcon BSOD 屏幕。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    此外,还有网友表示在向 Sonnet-3.5 提出了一个愚蠢的问题后,它突然不再认真回答,而是开始开玩笑。他表示这种行为从未在 GPT-4 上见过:



    反观现在的 OpenAI,万众期待的 GPT-5 难产,发力方向也比较“多元”,比如被解读为加入价格战的代表 GPT-4o mini 等。这不免让一些网友担心:OpenAI 是否会在绝对优势下,逐渐丢失积攒的好口碑呢?

     

    参考链接:

    https://old.reddit.com/r/ycombinator/comments/1e7rtdw/feeling_very_powerful_as_a_technical_founder_with/

    https://x.com/minchoi/status/1815024013812416567

    2024-07-22 17:428525

    评论 1 条评论

    发布
    用户头像
    还没支持中文吧、

    2024-07-23 08:33 · 北京
    回复
    没有更多了
    发现更多内容

    技术三板斧:关于技术规划、管理、架构的思考

    阿里技术

    技术管理 技术人生 内容合集

    让“美”势不可挡,DataPipeline助力全球知名化妆品企业数字化营销再提速

    DataPipeline数见科技

    大数据 中间件 数据融合 数据迁移 数据管理

    Python爬虫实战,pymysql模块,Python实现抓取音乐评论

    Java全栈架构师

    Python MySQL 数据库 程序员 面试

    一种播放远程TS格式媒体文件的新方案

    Changing Lin

    12月日更

    EMQ X 企业版 v4.4.0 发布:新增三项集成支持、增强异常诊断能力

    EMQ映云科技

    云原生 物联网 IoT mqtt 规则引擎

    高质量的缺陷分析:让自己少写 bug

    阿里技术

    技术管理 技术人生 内容合集

    揭开神秘面纱,如何组织一次分布式压测

    博睿数据

    安装TortoiseGit教程 手把手教学

    Z.

    git 工具 安装 Tortoisegit

    Flutter 应用程序中使用 GridTile 小部件

    坚果

    28天写作 12月日更

    2021年SASE融合战略路线图(一)

    devpoint

    SD-WAN sase 12月日更

    联想企业科技集团与京东耀弘签订战略合作协议 实现合作发展新跨越

    科技大数据

    百度API接口智能化测试探索与实践

    百度开发者中心

    自动化测试 API测试 智能化测试

    多行内容超出...显示的终极解决方案

    CRMEB

    PMI 的野望

    Franklin 许峰

    DevOps 敏捷 Lean 规范敏捷 PMI

    计算机网络体系结构

    淡泊明志、宁静致远

    TCP 网络结构

    如何写好代码?

    阿里技术

    技术管理 技术人生 内容合集

    如何优雅的关闭 Java 线程池

    淡泊明志、宁静致远

    线程池

    王者荣耀商城异地多活架构设计

    张靖

    #架构实战营

    架构实战 - 模块七

    唐敏

    架构实战营

    国家质量基础设施(NQI)一站式服务平台,NQI云服务平台建设

    a13823115807

    质量基础设施一站式服务 一站式服务平台开发

    百度翻译十周年:核心技术持续领先,日翻译量超千亿字符

    科技热闻

    Flutter 高性能、多功能的全场景滚动容器原理与实践

    阿里巴巴终端技术

    flutter 移动开发 客户端

    区块链数字版权,区块链数字藏品交易系统开发

    a13823115807

    #区块链# 区块链技术应用 区块链数字藏品

    第七模块总结

    张靖

    #架构实战营

    三年磨一剑,高德体验优化总结

    阿里巴巴终端技术

    ios android 性能优化 移动开发 客户端

    技术人如何自我成长?

    阿里技术

    技术管理 技术人生 内容合集

    【12月日更】浅谈Golang两种线程安全的map

    小梁编程汇

    golang 缓存 高性能 并发 多线程安全

    恒源云(GPUSHARE)_文本数据扩增时,哪些单词 (不) 应该被选择?

    恒源云

    深度学习 语音识别 语义

    热门招聘丨 XTransfer史上最全产品技术岗位公开招聘

    XTransfer技术

    产品 技术 招聘 XTransfer

    阿里技术 技术人成长| 内容合集

    阿里技术

    技术管理 技术人生 技术专题合集

    飞桨中国行——生产制造专场

    百度大脑

    人工智能

    Claude Sonnet 3.5 口碑爆棚!10倍速开发,“2个月内用Rust 从零构建完一款产品”_AI&大模型_褚杏娟_InfoQ精选文章