写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:505735

      评论

      发布
      暂无评论
      发现更多内容

      解Bug之路-串包Bug

      无毁的湖光

      redis socket Java 分布式

      第4周总结

      Vincent

      极客时间 极客大学

      面试不会微服务没关系,跟着我4天学会微服务!

      小Q

      Java spring 架构 分布式 微服务

      面试官:TCP/IP 协议到底在讲什么?想彻底搞懂TCP协议:还得从 TCP 三次握手四次挥手说起

      编程 程序员 互联网 面试 计算机网络

      数据质量管理工具的意义和定位

      苏槐

      数据治理 数据质量管理 数据质量平台

      通证与通证经济你真的理解吗

      CECBC

      区块链 通证经济

      就靠这几段代码,带你玩转rpc通信协议,不信你学不明白

      小Q

      Java 架构 面试 RPC 网络

      19.解决 Flink 升级1.11 报错 No ExecutorFactory found to execute the application

      小知识点

      scala 大数据 flink

      用 Python 实现一个简易版的 Pong 游戏 (二)

      Matrix Chan

      Python Python Turtle Python 游戏编程

      敏捷教练的软技能

      研发管理Jojo

      软技能 敏捷教练 引导者

      【原创】经验分享:一个Content-Length引发的血案(almost....)

      一枝花算不算浪漫

      oeasy 教您玩转 linux 010207 黑客帝国 matrix

      o

      万字长文 | 23 个问题 TCP 疑难杂症全解析

      yes

      TCP 计算机网络

      week13 作业

      Geek_2e7dd7

      Docker 容器编排利器 Docker Compose

      哈喽沃德先生

      Docker 容器 微服务 Docker-compose

      Spring 5 中文解析测试篇-集成测试之概要和注解

      青年IT男

      单元测试 Spring5

      深度解析!--阿里开源分布式事务框架Seata

      攀岩飞鱼

      分布式 分布式事务 微服务 分布式锁 Seate

      甲方日常 9

      句子

      Java 运维 工作 随笔杂谈 日常

      干货!如何平稳用户无感知的完成系统重构升级

      X先生

      架构 运维 后台

      媒体电视台跟进,船长梁晓玲平台拉人头卖课引起多方报道!

      成周

      第三周学习总结

      Vincent

      极客大学

      嘿,我想要寄一封挂号信,收件时间是 6 年后,标题是: 让 6 年后的我,加倍奉还。

      叶小鍵

      学习 成功学 心理学 李笑来

      USDT承兑商币支付系统搭建,USDT跑分承兑商app

      为什么我的缓存设置在chrome中不生效

      书虫

      chrome 缓存 浏览器 HTTP

      week 13 学习总结

      Geek_2e7dd7

      第三周作业

      Vincent

      极客大学

      JavaScript七大语言类型你知多少?

      Walker

      Java 大前端 编程语言

      java安全编码指南之:表达式规则

      程序那些事

      java安全编码 java安全 安全编码规则

      第4周作业

      Vincent

      极客时间 极客大学

      抽象可能从未停止过

      架构师修行之路

      系统设计 抽象 抽象思维

      架构师训练营-week13-作业

      晓-Michelle

      极客大学架构师训练营

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章