写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:505795

      评论

      发布
      暂无评论
      发现更多内容

      有了六顶思考帽,从此告别无效争吵

      Ian哥

      项目管理 28天写作 项目管理工具 六顶思考帽

      MySQL 连接数过多的处理方法合集 - ERROR 1040 Too many connections - 卡拉云

      蒋川

      MySQL MySQL 数据库

      Flutter 动画【Flutter专题16】

      坚果

      flutter 28天写作 签约计划第二季 12月日更

      网络协议之:基于UDP的高速数据传输协议UDT

      程序那些事

      TCP 网络协议 udp 程序那些事 12月日更

      团队基建系列 - 组织知识传承 1

      搬砖的周狮傅

      团队成长

      大厂算法面试之leetcode精讲24.其他类型题

      全栈潇晨

      算法 LeetCode

      【HarmonyOS 专题】01 基础 Mac 环境安装配置

      阿策小和尚

      HarmonyOS 28天写作 Android 小菜鸟 12月日更

      模块1作业

      miliving

      react源码解析17.context

      buchila11

      React React Hooks

      使用javap深入理解Java整型常量和整型变量的区别

      汪子熙

      Java jdk 28天写作 12月日更 javap

      .NET 6新东西--nuget包验证

      喵叔

      28天写作 12月日更

      模块一学习总结

      whoami

      「架构实战营」

      聊聊 Kafka: 在 Linux 环境上搭建 Kafka

      老周聊架构

      签约计划第二季 2月月更

      Spring中的事务Transactional,这样用真的对么?

      xcbeyond

      事务 28天写作 12月日更

      react源码解析18事件系统

      buchila11

      React React Hooks

      Flutter开发:TextField常用属性的使用

      三掌柜

      28天写作 12月日更

      Go语言学习查缺补漏ing Day4

      恒生LIGHT云社区

      编程语言 Go 语言

      使用 javap 分析 Java 的字符串操作

      汪子熙

      Java jdk 28天写作 12月日更 javac

      保存并提交修改后的容器镜像

      liuzhen007

      28天写作 12月日更

      [Pulsar] F# client的ProtobufNativeSchema实现

      Zike Yang

      Apache Pulsar 12月日更

      【LeetCode】截断句子Java题解

      Albert

      算法 LeetCode 12月日更

      从微服务架构的现状和未来看学习路径

      博文视点Broadview

      Linux云计算架构师:Linux全套实战学习资料

      侠盗安全

      Linux linux运维 运维工程师 云计算架构师 linux电子书

      学python,怎么能不学习scrapy呢,这篇博客带你学会它

      梦想橡皮擦

      12月日更

      说说节奏感

      Justin

      方法论 28天写作

      Prometheus Exporter (十九)Collectd Exporter

      耳东@Erdong

      Prometheus 28天写作 exporter 12月日更 Collectd

      Git进阶(十一):Git 常用操作汇总

      No Silver Bullet

      git 12月日更

      大厂算法面试之leetcode精讲23.并查集

      全栈潇晨

      算法 LeetCode

      拖延

      Nydia

      Prometheus Exporter (十八)Graphite Exporter

      耳东@Erdong

      Prometheus 28天写作 exporter 12月日更 Graphite

      12 张图 | 深入理解 Eureka三层缓存架构

      悟空聊架构

      缓存 Eureka 28天写作 悟空聊架构 12月日更

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章