写点什么

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

  • 2024-06-21
    北京
  • 本文字数:2511 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

整理 | 傅宇琪、核子可乐


本周四,Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet,这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码,拥有长达 20 万 token 长上下文窗口的 Claude 3.5,目前已经在 Claude 网站及 API 上对外开放。随后,亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。


从目前的市场表现来看,Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道,“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半,但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃,因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o?


根据 Anthropic 的介绍,Claude 3.5 Sonnet 在部分基准测试(包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval)上的表现,已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平


Claude 3.5 Sonnet 具备先进的智能水平,运行速度可达到 Claude 3 Opus 的两倍,在具有研究生水平的推理能力(GPQA)、本科水平知识(MMLU)和编程能力(HumanEval)方面设立了新的行业基准;在理解细微差别、幽默和复杂指令方面表现有显著的提升;在撰写高质量内容时能表现出更自然、更易理解的语气,生成引人入胜和有说服力的内容,简化写作工作流程,提升叙事能力。


Claude 3.5 Sonnet 非常适合处理复杂任务,加上性能的提升与出色的成本效益,使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。


在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进,包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译,在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力


Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力,在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显,如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等领域客户尤为重要。在这些领域,生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。


Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务,提取有价值的信息,增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺


Claude 模型经过了严格的测试和训练,以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃,但 Anthropic 的红队 (red team,安全团队,最大化模拟真实世界的攻击) 评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 (AI Safety Levels)级别。


履行对安全性和透明度的承诺,Anthropic 与外部专家合作,不断测试并完善这一最新模型的安全机制,并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后,与美国人工智能安全研究所共享了测试结果。


当考虑到滥用的问题时,Anthropic 还整合了外部专家的政策反馈,以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比


对于普通用户来说,3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能,它允许人们在对话的同时,在专用窗口中与 Claude 生成的内容(例如代码、文本和网页设计)进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情,而不必担心内容丢失。同时,Anthropic 将 Artifacts 视为推动 Claude.ai(其网页界面)成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务,它创建出了能够实际运行的 Python 代码,代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。


Anthropic 表示,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下,3.5 的成本也更低廉——在 API 中,新的 3.5 模型每百万输入 token 定价 3 美元,每百万输出 token 定价 15 美元。相比之下,Opus 每百万输入 token 定价 15 美元,每百万输出 token 定价 75 美元。


除了网站和 API 之外,Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问,付费用户将获得更高的用量上限。同时,该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受


在测试中,Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快,而且在相对随意的非严谨测试当中,3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇,「Magenta」(洋红色)一词还会被用于命名颜色吗?”时,Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名,而这场战役正是在意大利的 Magenta 镇上打响。


Claude 3 Opus 面对同一问题做出的回答。


Claude 2 面对同一问题做出的回答。


要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话,但感觉好像有抄袭的涉嫌。当我们提出质疑后,它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。


大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”(即根据存储在其神经网络中的数据 0 合成出新的排列),往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外,该公司还在探索如何将新功能与企业应用需求相集成,从而对 Claude AI 平台做出进一步更新。


参考链接:


https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

2024-06-21 16:428272

评论

发布
暂无评论
发现更多内容

Git .ignore 文件规则不生效

攻城狮杰森

git IDEA 协同开发 7月月更

SAP ABAP 系统同微软 Office 套件进行 Desktop Integration 的工作原理

汪子熙

Office SAP abap Netweaver 7月月更

LED显示器好用吗?

Dylan

web技术分享| 基于vue3实现自己的组件库第二章:Pagination组件

anyRTC开发者

前端 Web 音视频 Vue3 Pagination

CSS 中 ::before 和 ::after 伪元素的几个实际用途

南城FE

CSS 前端 伪元素 7月月更

活动报名|聚焦案例实践,Apache Pulsar 在线 Meetup 火热来袭

腾源会

开源 腾源会 Apache Pulsar 社区

2022年7月中国数据库排行榜:墨天轮榜单榜眼易主,PolarDB得分涨幅最大

墨天轮

数据库 TcaplusDB TiDB 国产数据库 polarDB

长安链研究笔记 - win10(goland)源码启动长安链,可调试源码

长安链

动态化UI在Qunar客户端首页的应用

Qunar技术沙龙

双目立体匹配之代价聚合

秃头小苏

7月月更

阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022

阿里云大数据AI技术

Transformer 机器学习/深度学习

内部排序——基数排序and总结

乔乔

7月月更

打造“拉动式”企业培训管理方案,释放人才潜能

明道云

低代码实现探索(四十四)检查器待研究

零道云-混合式低代码平台

一站式 DevOps 平台,让开发大不同

飞算JavaAI开发助手

微服务项目中,Spring Security 比 Shiro 强在哪?

冉然学Java

编程 微服务架构 spring security Java’

如何提交一个PR?完成这 6 点就可以了

OpenAnolis小助手

开发者 pull request 龙蜥社区 【人人都可以参与开源】 社区建设

Kafka面试22连问,看完直接跟面试官聊骚都没问题

程序知音

Java kafka 程序员 后端 程序员面试

开源协议详解

源字节1号

开源 软件开发 前端开发 后端开发

【LeetCode】实现一个魔法字典Java题解

Albert

LeetCode 7月月更

【Docker 那些事儿】如何安全地停止、删除容器

Albert Edison

Docker Kubernetes 容器 云原生 7月月更

更贴心、更好学的Python自动化办公教程!

博文视点Broadview

Python 入门指南之类

海拥(haiyong.site)

7月月更

Qt 实现解压压缩包

小肉球

qt 7月月更

👨‍💻Mybatis源码我搞透了,面试来问吧!写了134个源码类,1.03万行代码!

小傅哥

源码分析 小傅哥 mybatis 大厂面试 面试经验

浅入浅出Mybatis(一)

ES_her0

7月月更

大厂都在玩的容器技术到底是什么?

慕枫技术笔记

容器 云原生 7月月更

“Shift”键——一直被人低估的功能键

极客天地

机器学习-聚类算法

AIWeker

机器学习 聚类算法 7月月更

使用Gitlab Jenkins Docker建立CI部署方案

沃德

程序员 jenkins 7月月更

Kubernetes核心技术剖析和DevOps落地经验|研发效能

laofo

DevOps k8s 研发效能 工程效率

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?_AI&大模型_傅宇琪_InfoQ精选文章