50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:506190

      评论

      发布
      暂无评论
      发现更多内容

      DevOps到底是什么意思?

      xcbeyond

      DevOps 方法论 软件测试 28天写作

      “删库跑路”,这背后的数据安全你悟到了吗?

      BinTools图尔兹

      数据库 大数据 数据安全 数据库管理工具 删库

      个人信息严控的时代,AI如何实现“安全”的智能营销?

      星环科技

      大数据

      Android JNI模板与读取系统属性笔记

      Changing Lin

      android

      加油,成功通过阿里P7Java岗面试,分享一些面试心得

      Java架构之路

      Java 程序员 架构 面试 编程语言

      「产品经理训练营」第三章作业

      Sòrγy_じò ぴé

      产品经理训练营 极客大学产品经理训练营 产品训练营

      百度信息流和搜索业务中的弹性近线计算探索与应用 | 文末送福利

      百度Geek说

      Java 大前端 算法工程师 技术宅

      Maintainer 聚光灯:KubeEdge 和 Volcano 的王泽锋

      华为云原生团队

      开源 边缘计算 华为云 批量计算

      Elastic开源协议改了,用户怎么办?

      星环科技

      技术资讯 | 百度智能云拿下MTCS最高安全评级

      百度开发者中心

      行业资讯

      阿里巴巴正式推出2021年金三银四1000道Java工程师面试题手册(含答案)

      Java架构追梦

      Java 阿里巴巴 面试 架构师 金三银四

      十年运维经验总结出的智能运维系统落地方案

      小术晓术

      人工智能 运维 企业信息化 运维自动化 信息化

      程序员必知的几种限流方案

      Java架构师迁哥

      为什么这么一道iOS小题目,这么多面试者搞不定?

      Geek_24a3d9

      面试 技术交流 ios开发

      数学,离一个程序员有多近?

      小傅哥

      程序员 面试

      七面阿里成功offer,入职就是25k*16薪,还原我的大厂面经

      Java 程序员 面试

      北京朝阳法院借力区块链化解物业纠纷

      CECBC

      法院调解

      阿里直招怒斩“P7“offer,自曝狂啃六遍的面试笔记

      Java架构之路

      Java 程序员 架构 面试 编程语言

      安卓驱动开发!系统盘点Android开发者必须掌握的知识点,搞懂这些直接来阿里入职

      欢喜学安卓

      android 程序员 面试 移动开发

      IDEA Malformed argument has embedded quote

      会飞的猪

      IDEA

      我国首个自主可控区块链软硬件技术体系发布

      CECBC

      区块链

      深扒!用6部分讲完Java性能调优:多线程+设计模式+数据库

      996小迁

      数据库 JVM 设计模式 多线程 性能调优

      【Mysql-InnoDB 系列】幻读、死锁与事务调度

      程序员架构进阶

      MySQL 架构 innodb 事务 28天写作

      IntelliJ IDEA 20周岁啦,为期2天的周年庆活动对开发者免费开放

      YourBatman

      eclipse ide IDEA IntelliJ IDEA

      不明白线程池?那看看这篇,附10道面试题

      田维常

      线程池

      DjangoRestFramework框架简介及基本使用

      行者AI

      RESTful

      Flink + Iceberg 全场景实时数仓的建设实践

      Apache Flink

      flink

      try-catch-finally中的4个大坑,不小心就栽进去了!

      王磊

      Java 异常处理 try finally

      Spring Security 实战干货:分布式对象SharedObject

      Java spring 分布式

      产业区块链蓬勃发展 联盟链成为落地应用最大杀器

      CECBC

      区块链

      android开发面试准备!Android高级工程师进阶学习,已开源

      欢喜学安卓

      android 程序员 面试 移动开发

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章