9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

  • 2024-06-21
    北京
  • 本文字数:2511 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

整理 | 傅宇琪、核子可乐


本周四,Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet,这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码,拥有长达 20 万 token 长上下文窗口的 Claude 3.5,目前已经在 Claude 网站及 API 上对外开放。随后,亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。


从目前的市场表现来看,Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道,“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半,但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃,因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o?


根据 Anthropic 的介绍,Claude 3.5 Sonnet 在部分基准测试(包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval)上的表现,已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平


Claude 3.5 Sonnet 具备先进的智能水平,运行速度可达到 Claude 3 Opus 的两倍,在具有研究生水平的推理能力(GPQA)、本科水平知识(MMLU)和编程能力(HumanEval)方面设立了新的行业基准;在理解细微差别、幽默和复杂指令方面表现有显著的提升;在撰写高质量内容时能表现出更自然、更易理解的语气,生成引人入胜和有说服力的内容,简化写作工作流程,提升叙事能力。


Claude 3.5 Sonnet 非常适合处理复杂任务,加上性能的提升与出色的成本效益,使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。


在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进,包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译,在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力


Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力,在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显,如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等领域客户尤为重要。在这些领域,生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。


Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务,提取有价值的信息,增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺


Claude 模型经过了严格的测试和训练,以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃,但 Anthropic 的红队 (red team,安全团队,最大化模拟真实世界的攻击) 评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 (AI Safety Levels)级别。


履行对安全性和透明度的承诺,Anthropic 与外部专家合作,不断测试并完善这一最新模型的安全机制,并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后,与美国人工智能安全研究所共享了测试结果。


当考虑到滥用的问题时,Anthropic 还整合了外部专家的政策反馈,以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比


对于普通用户来说,3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能,它允许人们在对话的同时,在专用窗口中与 Claude 生成的内容(例如代码、文本和网页设计)进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情,而不必担心内容丢失。同时,Anthropic 将 Artifacts 视为推动 Claude.ai(其网页界面)成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务,它创建出了能够实际运行的 Python 代码,代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。


Anthropic 表示,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下,3.5 的成本也更低廉——在 API 中,新的 3.5 模型每百万输入 token 定价 3 美元,每百万输出 token 定价 15 美元。相比之下,Opus 每百万输入 token 定价 15 美元,每百万输出 token 定价 75 美元。


除了网站和 API 之外,Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问,付费用户将获得更高的用量上限。同时,该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受


在测试中,Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快,而且在相对随意的非严谨测试当中,3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇,「Magenta」(洋红色)一词还会被用于命名颜色吗?”时,Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名,而这场战役正是在意大利的 Magenta 镇上打响。


Claude 3 Opus 面对同一问题做出的回答。


Claude 2 面对同一问题做出的回答。


要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话,但感觉好像有抄袭的涉嫌。当我们提出质疑后,它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。


大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”(即根据存储在其神经网络中的数据 0 合成出新的排列),往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外,该公司还在探索如何将新功能与企业应用需求相集成,从而对 Claude AI 平台做出进一步更新。


参考链接:


https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

2024-06-21 16:427852

评论

发布
暂无评论
发现更多内容

货拉拉论文入选中国市场营销国际学术年会CMIC

科技热闻

不能不知道的LED显示屏产业机遇

Dylan

机遇 产业 LED显示屏 led显示屏厂家

火山引擎DataLeap数据质量解决方案和最佳实践(三):最佳实践

字节跳动数据平台

关于Java已死,看看国外开发者怎么说的

越长大越悲伤

Java 后端

软件测试/测试开发丨Selenium的常用元素定位方法

测试人

Python 软件测试 自动化测试 测试开发 selenium

聆心智能上榜“北京市通用人工智能大模型行业应用典型场景案例”

硬科技星球

2023年CCF-百度松果基金课题申报持续进行中,截至7月24日

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

MySQL的match函数在sp中使用的BUG解析

GreatSQL

数据库 greatsql

推荐书单:个人成长的一些方法

老张

个人成长 书单

prometheus描点原理

蓝胖子的编程梦

Docker 云原生 Grafana Prometheus #k8s

“多”维演进:智能编码的深度进化

阿里云CloudImagine

云计算 编码 视频编码 视频云

研发质量指标大 PK:MTTR vs MTBF,谁是靠谱王?

LigaAI

高可用性 研发效能度量 MTTR 研发效能管理 企业号 7 月 PK 榜

了解Java可见性的本质

阿里技术

Java java 编程

架构课模块一作业

庚小庚

利用小程序技术,构建数字警务体系

没有用户名丶

认知负担的挑战与平台工程的机遇

SEAL安全

DevOps 平台工程 认知负担

MatrixOne 0.8.0 开放公测啦!

MatrixOrigin

云原生 超融合 #数据库 MatrixOne

语音直播源码知识分享:探索新的沟通方式

山东布谷科技

软件开发 语音 源码搭建 直播源码 语音直播源码

在 7 月 4 日,PoseiSwap 治理通证 $POSE 上线了 BNB Chain 上的头部

鳄鱼视界

PoseiSwap 治理通证POSE登录PancakeSwap,开盘涨幅超2100%

西柚子

GPU 容器虚拟化新能力发布和全场景实践

Baidu AICLOUD

GPU容器虚拟化

​山东大学高校专区入驻飞桨AI Studio,优质教育资源等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 百度飞桨

华为云CodeArts IDE Online:让你随时随地畅享云端编码乐趣

云计算 软件开发 华为云 华为开发者大会2023

ABAQUS有限元分析软件吃CPU还是GPU比较多?

思茂信息

gpu cpu 显卡 ANAQUS 有限元分析

5G与妈祖守护的那片海

白洞计划

5G

🔥年中技术盘点暨7月主题征文活动开始啦!

InfoQ写作社区官方

热门活动 年中技术盘点

图+AI 生成未来|悦数图数据库亮相 2023 世界人工智能大会

悦数图数据库

AI 图数据库 大模型 AIGC

HDC开发者盛典 | 破解创业老板高效制果汁奥秘挑战!赢取代金券、按摩枕、收纳袋等礼品~

云计算 软件开发 华为云 华为开发者大会2023

玩转“擎舵”,秒变AIGC时代营销创意“掌舵人”

极客天地

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?_AI&大模型_傅宇琪_InfoQ精选文章