2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:505776

      评论

      发布
      暂无评论
      发现更多内容

      5分钟搞懂5G安全增强

      俞凡

      5G 安全 网络 通信

      chrome对页面重绘和回流以及优化进行优化

      zhoulujun

      chrome 重绘 回流

      推荐算法在商城系统实践

      越长大越悲伤

      推荐系统 推荐算法 #java

      Vue3 Transition 踩坑记

      沉浸式趣谈

      踩坑 Vue 踩坑经历 vue cli VUE 3.0 源码解析

      SQLChat 的 RBAC 之旅

      天黑黑

      AI sql 数据库· ChatGPT

      post-css/less/sass样式嵌套与命令之"&"符号—BEM

      zhoulujun

      less SASS bem post-css

      浏览器层面优化前端性能(2):Reader引擎线程与模块分析优化点

      zhoulujun

      前端性能 Reader引擎线程

      QEMU线程模型

      Linux内核拾遗

      线程模型 Linux Kenel 虚拟化 qemu kvm

      深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW

      汀丶人工智能

      人工智能 机器学习 深度学习 梯度下降算法

      JS引擎(0):JavaScript引擎群雄演义—起底JavaScript引擎

      zhoulujun

      JavaScript mocha JavaScript引擎 SpiderMonkey Nashorn

      软件测试捕获回放失败

      测吧(北京)科技有限公司

      测试

      Cornerstone for Mac(最好用的SVN管理工具) v4.2永久激活版

      Rose

      mac软件下载 SVN客户端 cornerstone 4破解 Cornerstone mac版

      【异常解决】postman请求提示Full authentication is required to access this resource

      No8g攻城狮

      测试 Postman

      Go 语言切片是如何扩容的?

      AlwaysBeta

      Go 源码 面试题 切片

      软件测试 | 可测试性是可视性和控制

      测吧(北京)科技有限公司

      测试

      【Spring专题】「技术原理」从源码角度去深入分析关于Spring的异常处理ExceptionHandler的实现原理

      码界西柚

      spring 源码分析 4月日更 ExceptionHandler 异常处理器

      浏览器史话中chrome霸主地位的奠定与国产浏览器的割据混战

      zhoulujun

      chrome 浏览器霸主 国产浏览器

      差的自动化测试的问题是没有人注意

      测吧(北京)科技有限公司

      测试

      css过去及未来展望—分析css演进及排版布局的考量

      zhoulujun

      CSS

      sketch文件导出没有背景色怎么办? sketch背景色消失的解决办法

      Rose

      sketch Mac Sketch下载 sketch无背景

      区分List中 remove(index)/remove(Object)

      Joseph295

      如何为基于规格说明的测试创建可跟踪性矩阵

      测吧(北京)科技有限公司

      测试

      不要强求100%的自动化

      测吧(北京)科技有限公司

      测试

      性能最快的代码分析工具,Ruff 正在席卷 Python 圈!

      Python猫

      Python

      JS引擎(1):JS引擎擂台赛,JavaScript引擎的特征比较及术语科普

      zhoulujun

      JavaScript JavaScript引擎 引擎擂台赛

      保持住你写代码的姿势,你就是黑带了

      Bruce Talk

      敏捷开发 TDD Agile

      在报告原型或早期个人版本的程序错误之前,要先征得同意

      测吧(北京)科技有限公司

      测试

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章