写点什么

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

  • 2024-06-21
    北京
  • 本文字数:2511 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

整理 | 傅宇琪、核子可乐


本周四,Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet,这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码,拥有长达 20 万 token 长上下文窗口的 Claude 3.5,目前已经在 Claude 网站及 API 上对外开放。随后,亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。


从目前的市场表现来看,Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道,“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半,但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃,因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o?


根据 Anthropic 的介绍,Claude 3.5 Sonnet 在部分基准测试(包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval)上的表现,已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平


Claude 3.5 Sonnet 具备先进的智能水平,运行速度可达到 Claude 3 Opus 的两倍,在具有研究生水平的推理能力(GPQA)、本科水平知识(MMLU)和编程能力(HumanEval)方面设立了新的行业基准;在理解细微差别、幽默和复杂指令方面表现有显著的提升;在撰写高质量内容时能表现出更自然、更易理解的语气,生成引人入胜和有说服力的内容,简化写作工作流程,提升叙事能力。


Claude 3.5 Sonnet 非常适合处理复杂任务,加上性能的提升与出色的成本效益,使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。


在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进,包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译,在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力


Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力,在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显,如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等领域客户尤为重要。在这些领域,生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。


Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务,提取有价值的信息,增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺


Claude 模型经过了严格的测试和训练,以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃,但 Anthropic 的红队 (red team,安全团队,最大化模拟真实世界的攻击) 评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 (AI Safety Levels)级别。


履行对安全性和透明度的承诺,Anthropic 与外部专家合作,不断测试并完善这一最新模型的安全机制,并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后,与美国人工智能安全研究所共享了测试结果。


当考虑到滥用的问题时,Anthropic 还整合了外部专家的政策反馈,以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比


对于普通用户来说,3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能,它允许人们在对话的同时,在专用窗口中与 Claude 生成的内容(例如代码、文本和网页设计)进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情,而不必担心内容丢失。同时,Anthropic 将 Artifacts 视为推动 Claude.ai(其网页界面)成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务,它创建出了能够实际运行的 Python 代码,代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。


Anthropic 表示,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下,3.5 的成本也更低廉——在 API 中,新的 3.5 模型每百万输入 token 定价 3 美元,每百万输出 token 定价 15 美元。相比之下,Opus 每百万输入 token 定价 15 美元,每百万输出 token 定价 75 美元。


除了网站和 API 之外,Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问,付费用户将获得更高的用量上限。同时,该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受


在测试中,Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快,而且在相对随意的非严谨测试当中,3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇,「Magenta」(洋红色)一词还会被用于命名颜色吗?”时,Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名,而这场战役正是在意大利的 Magenta 镇上打响。


Claude 3 Opus 面对同一问题做出的回答。


Claude 2 面对同一问题做出的回答。


要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话,但感觉好像有抄袭的涉嫌。当我们提出质疑后,它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。


大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”(即根据存储在其神经网络中的数据 0 合成出新的排列),往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外,该公司还在探索如何将新功能与企业应用需求相集成,从而对 Claude AI 平台做出进一步更新。


参考链接:


https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

2024-06-21 16:428011

评论

发布
暂无评论
发现更多内容

当AI能够在15分钟内部署,世界距离大变革不远了

百度大脑

人工智能

Apache Pulsar 与 Kafka 性能比较:延迟性(测试结果)

Apache Pulsar

kafka 云原生 Apache Pulsar 消息 延迟性

Mysql事务的实现原理之Redo Log的分析

卢卡多多

Redo Log 11月日更

选择 Pulsar 而不是 Kafka 的 7 大理由

Apache Pulsar

kafka 架构 云原生 中间件 Apache Pulsar

回收与价值赋能:动力电池的“退休”之旅

脑极体

Apache Pulsar 与 Kafka 性能比较:延迟性(测试过程)

Apache Pulsar

kafka 分布式 云原生 消息中间件 Apache Pulsar 消息系统

元宇宙和当今最活跃的三家元宇宙平台

devpoint

以太坊 元宇宙 11月日更

ARP欺骗与防范

喀拉峻

网络安全 安全 信息安全

去安定医院看失眠,有必要吗?

脑极体

2021最新Apache漏洞分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

零拷贝原理的文章网上满天飞,但你知道如何使用零拷贝吗?

中间件兴趣圈

Netty 零拷贝 11月日更

模块三-架构详细文档

小麦🌾

架构实战营

开源数据库OceanBase源码解读(九):tableAPI和OB多模型

OceanBase 数据库

数据库 开源 oceanbase

OceanBase 监控工具 OBAgent

OceanBase 数据库

数据库 开源 学习方法 分布式 oceanbase

云迹科技林小俊:商业服务机器人如何破局“低价+同质化”?

朋湖网

AlmaLinux安装OpenVINO

IT蜗壳-Tango

IT蜗壳 OpenVINO 11月日更

javaScript基础篇之数组是怎样锻炼你的逻辑能力

你好bk

JavaScript 大前端 数组 数组合并

如何优雅的获取 Mac OS 系统 IP 地址?

liuzhen007

11月日更

Kafka 已落伍,转角遇见 Pulsar!

Apache Pulsar

kafka 架构 分布式 Apache Pulsar 消息系统

大数据训练营一期1017作业

朱磊

飞桨中国行——企业服务专场

百度大脑

人工智能

一个基于PoS共识算法的区块链实例解析(升级版)

Regan Yue

区块链 共识算法 Go 语言 11月日更

【LeetCode】K 个一组翻转链表Java题解

Albert

算法 LeetCode 11月日更

[Pulsar] 使用Proxy进行认证和鉴权

Zike Yang

Apache Pulsar 11月日更

NodeJs深入浅出之旅:文件系统

空城机

大前端 Node 11月日更

Android C++系列:Linux文件IO操作(一)

轻口味

c++ android jni 11月日更

从消息到数据湖:看 Apache RocketMQ、Hudi、Kyuubi 最新进展

阿里巴巴云原生

数据湖 Meetup Apache RocketMQ Apache Hudi Apache Kyuubi

对比 Apache Kafka 和 Apache Pulsar 创建工作队列

Apache Pulsar

kafka 分布式 中间件 Apache Pulsar 工作队列

Go语言,语法糖规则,可别掉入陷阱

微客鸟窝

Go 语言 11月日更

.NET6新东西--隐式命名空间引用

喵叔

11月日更

助力政企自动化自然生长,华为WeAutomate RPA是怎么做到的?

王吉伟频道

华为 RPA WeAutomate 政企 超自动化

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?_AI&大模型_傅宇琪_InfoQ精选文章