写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:505902

      评论

      发布
      暂无评论
      发现更多内容

      财务共享案例分享!大型企业财务先锋交流财务数智化转型的关键举措

      用友BIP

      财务共享

      Server版支持即将到期,Jira和Confluence如何迁移?(2)

      龙智—DevSecOps解决方案

      云原生 迁移 云 原生云 CTO 迁移上云 迁移计划

      靠AI自动生成视频撸自媒体收益,月入5000+

      派大星

      ChatGPT4

      合合信息商业大数据技术为农商行打造数字化转型专项方案

      合合技术团队

      数据挖掘 大数据 金融

      理论+实操|一文掌握 RFM 模型在客户数据洞察平台内的落地实战

      袋鼠云数栈

      大数据 RFM模型 标签体系 RFM

      人脸识别图像技术的原理及其应用

      数据堂

      APP出海的现状与挑战​

      MobTech袤博科技

      嘉为蓝鲸荣登广东软件风云榜,获评新技术应用最受欢迎产品TOP10

      嘉为蓝鲸

      软件 新技术 应用程序

      OIDC & OAuth2.0 认证协议最佳实践系列 02 - 授权码模式(Authorization Code)接入 Authing

      Authing

      低代码 OAuth 2.0 OIDC Authing

      极氪汽车 APP 系统云原生架构转型实践

      阿里巴巴云原生

      阿里云 云原生 合作

      财务共享经验分享!权威教授解读企业走向财务数智化的关键路径

      用友BIP

      财务共享

      独立游戏开发:掌握成功的五大关键技巧

      龙智—DevSecOps解决方案

      游戏开发 独立游戏 独立游戏开发

      生态共建丨YashanDB与金蝶软件完成兼容互认证

      YashanDB

      数据库

      为什么数字化转型就应该选择低代码?一文详解

      加入高科技仿生人

      低代码 数字化转型

      探索 Web 管理之路,OpenYurt 社区 UI/CLI SIG 正式启动

      阿里巴巴云原生

      阿里云 开源 云原生 openyurt

      崖山数据库系统YCA认证,首发期限时免费!

      YashanDB

      数据库

      7 步提升私有化部署的极狐GitLab 实例安全等级

      极狐GitLab

      DevOps 安全 SSH DevSecOps 密钥

      欧伟杰:乘“20+8”政策之东风,促进深圳空间数据向好发展

      YashanDB

      数据库

      玩转服务器之网站篇:新手使用WordPress搭建博客和静态网站部署

      京东科技开发者

      Wordpress 部署 服务器 WordPress 企业号 5 月 PK 榜 静态网站部署

      数据可视化:地图类可视化图表大全

      2D3D前端可视化开发

      大数据 数据分析 数字化转型 数据可视化 数据可视化工具

      是 CI 也是阿拉伯飞毯——腾讯云 CODING CI 3.0 云原生构建

      CODING DevOps

      云原生 持续集成 CODING DevOps

      生态共建丨崖山数据库系统与杉岩分布式存储系统完成兼容互认证

      YashanDB

      数据库

      Zilliz @ GOTC:大模型的记忆体——向量数据库的现在与未来

      Zilliz

      Milvus AIGC 向量数据库 zillizcloud cvpstack

      C4D必备的7个素材网站,很多爆款素材!

      Finovy Cloud

      C4D

      全面预算管理可以从科技发展中得到什么?

      智达方通

      全面预算管理 信息孤岛

      软件测试/测试开发丨学习笔记之App自动化用例录制、结构分析

      测试人

      程序员 软件测试 自动化测试 测试开发 appium

      WePY小程序框架如何使用

      Onegun

      小程序 小程序框架

      企业号 6 月 PK 榜,火热开启!

      InfoQ写作社区官方

      热门活动 企业号 6 月 PK 榜

      低代码+MOM:释放制造业数字化魅力

      力软低代码开发平台

      对线面试官-线程池(一)

      派大星

      面试

      当 Serverless 遇上 AI,锁定年度最佳 CP,这场论坛满足你的好奇心

      阿里巴巴云原生

      阿里云 Serverless 云原生

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章