写点什么

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

作者:Andrew Hoblitzell

  • 2023-12-14
    北京
  • 本文字数:1146 字

    阅读完需:约 4 分钟

大小:550.38K时长:03:07
Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

据 Anthropic 称,最新版本的 Claude 大模型为企业提供了许多“关键特性方面的进步,包括行业领先的 200K token 上下文窗口、模型幻觉率显著降低、系统提示词以及我们新开发的测试功能:支持外部工具”。Anthropic 还宣布了降价措施,以提升各款模型用户的成本效益。

 

增强的上下文窗口是 Claude 2.1 的一项亮点特性,其拥有 200,000 个 token 的容量,超过了 OpenAI 的 GPT-4,后者提供了 128,000 个 token 的窗口。Anthropic 表示,与之前的模型相比,新模型输出虚假陈述的可能性更小。Claude 2.1 会试图避免不正确的答案并承认一些问题存在不确定性,它输出相关答案时一般会选择提出质疑,而不是提供不正确的信息。Anthropic 表示,该模型输出的错误答案减少了 30%,并且模型错误地作出缺乏信源的判断的比率大大降低。



另一个值得注意的新增特性是 Claude 2.1 使用工具并与 API 交互的能力。该功能让模型能够利用计算器、数据库等外部资源,甚至执行网络搜索来更有效地响应查询。它还可以集成到用户的技术栈中,从而在各个领域中实现更多样化的应用。

 

此外,Claude 2.1 引入了系统提示词,使用户能够为其请求设置特定的上下文。此功能可确保模型的响应更加结构化且前后一致。现在模型的价格定为输入的提示词每百万 token 8 美元,模型输出则是每百万 token 24 美元,这样包括开发人员和企业在内的很多用户群体都能负担得起了。

 

一些用户对新模型的评价褒贬不一。从积极的一面来看,一些用户发现 Claude 2.1 非常适合聊天和摘要等任务,并赞扬了它的进步和功能改进,特别是在摘要任务方面。然而,其他用户也对该模型的拒绝响应情况和严格的审查表示失望,一些用户认为这让这款工具的实用性和自主性打了折扣。此外,由于严格的安全协议和内容指南,人们担心 Claude 在处理某些内容(例如学术或研究材料)方面存在局限性。



发现:

  • 在 200K 个 token(近 470 页)的情况下,Claude 2.1 能够回忆起某些文档级深度的事实

  • 文档最顶部和最底部的事实被回忆的准确率接近 100%

  • 位于文档顶部的事实的回忆性能低于底部(类似于 GPT-4)

  • 从 ~90K token 开始,文档底部的回忆性能开始变得越来越差

  • 无法保证短上下文长度下的性能 - Greg Kamradt


Anthropic 及时推出 Claude 2.1 的时机恰逢 OpenAI 的内部冲突时期,后者导致 ChatGPT Plus 订阅暂停购买,首席执行官 Sam Altman 也陷入了风波。尽管如此,Devin Coldewey 写道,“不管怎样,GPT-4 仍然是代码生成领域的黄金标准,Claude 处理输入请求的方式与竞争对手是不一样的,有些更好,有些更差。”

 

想要了解更多关于 Claude 2.1 细节的用户可以参考 Anthropic 网站上的模型介绍页面。 Anthropic 还制作了一个示例存储库,演示如何使用工具功能。

 

原文链接

https://www.infoq.com/news/2023/11/anthropic-announces-claude-2-1/

2023-12-14 12:575880

评论

发布
暂无评论
发现更多内容

【IT运维小知识】虚拟化vCenter是什么意思?有啥优势?

行云管家

高维数据世界|基于高维稀疏矩阵的潜在变量模型研究

索信达控股

算法 变量模型 模型介绍 高维数据

元气部落盲盒小程序开发芒趣盲盒app开发

风行无疆

”微博评论“的高性能高可用计算架构设计

Steven

架构实战营

创新模式驱动生产力提升,融云社交场景化 SDK 探索

融云 RongCloud

直播 sdk 语聊房 场景化

dart系列之:数学什么的就是小意思,看我dart如何玩转它

程序那些事

flutter dart 程序那些事 11月日更

看完这5个核心功能,你会明白低代码平台到底能解决什么问题!

J2PaaS低代码平台

低代码 低代码开发 低代码平台

数据产品经理实战-指标体系搭建

第519区

数据产品经理 数据产品 指标体系 指标管理

混合云管理软件用哪个品牌好?咨询电话多少?

行云管家

读《区块链技术及应用第二版》华为区块链发展思路、双引擎战略及华为区块链特点和使用有感

孙叫兽

区块链 华为链 华为区块链服务

大厂算法面试之leetcode精讲12.堆

全栈潇晨

算法 LeetCode

英特尔宋继强:秉持三个坚持,穿越技术周期,构建未来技术生态

科技新消息

社交泛娱出海新引擎,融云「六化」能力助开发者轻装上阵

融云 RongCloud

游戏出海 出海社交 出海

从双十一的物流大战,看全球通信网络的低延迟优化

融云 RongCloud

音视频 通信 低延迟 全球通信

react源码解析6.legacy模式和concurrent模式

buchila11

React React Hooks

【最全攻略】玩转2021LIGHT开发者云大会

恒生LIGHT云社区

技术 开发 行业 行业大会

手把手带你写一个 Vue3 的自定义指令

CRMEB

行业视野 | ONES CEO 王颖奇对话极客公园张鹏

万事ONES

SaaS SaaS平台

Python代码阅读(第66篇):两个列表的包含关系

Felix

Python Code 列表 阅读代码 Python初学者

react源码解析5.jsx&核心api

buchila11

React React Hooks

新思科技BSIMM12报告显示开源、云、容器安全活动增长显著

InfoQ_434670063458

新思科技 软件安全 BSIMM

你有一份「写作跨年」邀请函请查收 | 28天写作计划

TGO鲲鹏会

写作 技术创作 28天写作 内容创作 热门活动

字节跳动亿级DAU客户端发布最佳实践

字节跳动终端技术

一页纸需求的应对方法 —— 五步法

CODING DevOps

业务价值 角色梳理 术语定义 主业务流程梳理 纲举目张

WICC 广州高峰对话:为开发者标注「航海地图」

融云 RongCloud

开发 游戏 社交 泛娱乐 出海

Linux一学就会之Vim编辑器的使用和Xmanager工具的使用。

学神来啦

vim Linux centos 运维 ext4

建立合格的跨职能团队,你需要知道这些!

禅道项目管理

团队 合作共赢

Java&Go三种HTTP客户端性能测试

FunTester

Java 性能测试 测试框架 Go 语言 FunTester

专家推荐五个免费的网络安全工具

喀拉峻

网络安全 安全 渗透测试 渗透

ONES Automation 流程自动化解决方案

万事ONES

自动化 SaaS

Rust 元宇宙 9 —— 库和序列化

Miracle

rust 元宇宙

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具_生成式 AI_InfoQ精选文章