写点什么

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

  • 2024-06-21
    北京
  • 本文字数:2511 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

整理 | 傅宇琪、核子可乐


本周四,Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet,这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码,拥有长达 20 万 token 长上下文窗口的 Claude 3.5,目前已经在 Claude 网站及 API 上对外开放。随后,亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。


从目前的市场表现来看,Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道,“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半,但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃,因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o?


根据 Anthropic 的介绍,Claude 3.5 Sonnet 在部分基准测试(包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval)上的表现,已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平


Claude 3.5 Sonnet 具备先进的智能水平,运行速度可达到 Claude 3 Opus 的两倍,在具有研究生水平的推理能力(GPQA)、本科水平知识(MMLU)和编程能力(HumanEval)方面设立了新的行业基准;在理解细微差别、幽默和复杂指令方面表现有显著的提升;在撰写高质量内容时能表现出更自然、更易理解的语气,生成引人入胜和有说服力的内容,简化写作工作流程,提升叙事能力。


Claude 3.5 Sonnet 非常适合处理复杂任务,加上性能的提升与出色的成本效益,使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。


在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进,包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译,在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力


Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力,在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显,如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等领域客户尤为重要。在这些领域,生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。


Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务,提取有价值的信息,增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺


Claude 模型经过了严格的测试和训练,以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃,但 Anthropic 的红队 (red team,安全团队,最大化模拟真实世界的攻击) 评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 (AI Safety Levels)级别。


履行对安全性和透明度的承诺,Anthropic 与外部专家合作,不断测试并完善这一最新模型的安全机制,并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后,与美国人工智能安全研究所共享了测试结果。


当考虑到滥用的问题时,Anthropic 还整合了外部专家的政策反馈,以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比


对于普通用户来说,3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能,它允许人们在对话的同时,在专用窗口中与 Claude 生成的内容(例如代码、文本和网页设计)进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情,而不必担心内容丢失。同时,Anthropic 将 Artifacts 视为推动 Claude.ai(其网页界面)成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务,它创建出了能够实际运行的 Python 代码,代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。


Anthropic 表示,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下,3.5 的成本也更低廉——在 API 中,新的 3.5 模型每百万输入 token 定价 3 美元,每百万输出 token 定价 15 美元。相比之下,Opus 每百万输入 token 定价 15 美元,每百万输出 token 定价 75 美元。


除了网站和 API 之外,Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问,付费用户将获得更高的用量上限。同时,该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受


在测试中,Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快,而且在相对随意的非严谨测试当中,3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇,「Magenta」(洋红色)一词还会被用于命名颜色吗?”时,Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名,而这场战役正是在意大利的 Magenta 镇上打响。


Claude 3 Opus 面对同一问题做出的回答。


Claude 2 面对同一问题做出的回答。


要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话,但感觉好像有抄袭的涉嫌。当我们提出质疑后,它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。


大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”(即根据存储在其神经网络中的数据 0 合成出新的排列),往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外,该公司还在探索如何将新功能与企业应用需求相集成,从而对 Claude AI 平台做出进一步更新。


参考链接:


https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

2024-06-21 16:427774

评论

发布
暂无评论
发现更多内容

BI系统打包Docker镜像及容器化部署的具体实现

葡萄城技术团队

Docker 数据分析 BI BI 分析工具

python处理excel文件,python xlsxwriter 一文初掌握

梦想橡皮擦

5月月更

养殖场新来了个“AI管家”

华为云开发者联盟

hilens ModelArts Pro 养殖场 AI摄像头 天视通

IDC Panel:智能运维在金融行业中的场景化应用

BizSeer必示科技

Java 基础语法

源字节1号

软件开发 前端开发 Java后端 小程序开发

数据大屏,仅仅是数据展示吗?

葡萄城技术团队

数据分析 BI 数据可视化 数据大屏 BI分析

【刷题第一天】蜡烛之间的盘子

白日梦

5月月更

面试中被问到最多的 19 个 JavaScript 问题

海拥(haiyong.site)

JavaScript 5月月更

火山引擎推出基于全新视角的 Web 端性能监控方案

字节跳动终端技术

字节跳动 Web 性能监控 火山引擎

导航网站合集 | 你想要的资源它都有

小炮

超级全面的设计类网址导航

小炮

web前端培训项目的 Vite 迁移实践分析

@零度

前端开发 vite

轻量迅捷时代,Vite 与Webpack 谁赢谁输

葡萄城技术团队

前端 vite webpack 轮子

ChunJun支持异构数据源DDL转换与自动执行 丨DTMO 02期回顾(内含课程回放+课件)

袋鼠云数栈

大数据

Java并发机制的底层实现原理

急需上岸的小谢

5月月更

【高并发】ThreadLocal学会了这些,你也能和面试官扯皮了!

冰河

并发编程 多线程 协程 异步编程 精通高并发系列

福昕软件:用PDF辅助技术弥合阅读障碍者的数字鸿沟

联营汇聚

千人千面工作台,轻松定制你的移动业务场景

BeeWorks

OceanBase 源码解读(十):一号表及其服务寻址

OceanBase 数据库

oceanbase 源码解读

一文带你了解 「图数据库」Nebula 的存储设计和思考

NebulaGraph

数据存储 图数据库

面试突击45:为什么要用读写锁?它有什么优点?

王磊

Java 面试

STM32+华为云IOT设计的动态密码锁

DS小龙哥

5月月更

五年谷歌ML Infra生涯,我学到最重要的3个教训

OneFlow

机器学习 深度学习 深度学习框架 MLOps Data Infra

SAP 电商云启用 Enterprise Product Development Visualization Integration 的配置步骤

汪子熙

angular 电商 SAP commerce 5月月更

限时免费!六位袋鼠云数栈资深产品专家带来《数智赋能实战六讲》,欢迎报名

袋鼠云数栈

数据中台 大数据 开源

官宣|Apache Flink 1.15 发布公告

Apache Flink

大数据 flink 编程 流计算 实时计算

[Day38]-[二叉树]-二叉树的右视图

方勇(gopher)

LeetCode 二叉树 数据结构算法

《对线面试官》Java泛型

Java3y

Java 程序员 编程语言 java 5月月更

Docker下的Spring Cloud三部曲之二:细说Spring Cloud开发

程序员欣宸

Java spring-cloud 5月月更

七、高可用之故障演练

穿过生命散发芬芳

故障演练 5月月更 高可用设计

安全领导力| GitLab 持续位列 Gartner AST 魔力象限

极狐GitLab

安全

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?_AI&大模型_傅宇琪_InfoQ精选文章