写点什么

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

作者:Andrew Hoblitzell

  • 2023-12-14
    北京
  • 本文字数:1146 字

    阅读完需:约 4 分钟

大小:550.38K时长:03:07
Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

据 Anthropic 称,最新版本的 Claude 大模型为企业提供了许多“关键特性方面的进步,包括行业领先的 200K token 上下文窗口、模型幻觉率显著降低、系统提示词以及我们新开发的测试功能:支持外部工具”。Anthropic 还宣布了降价措施,以提升各款模型用户的成本效益。

 

增强的上下文窗口是 Claude 2.1 的一项亮点特性,其拥有 200,000 个 token 的容量,超过了 OpenAI 的 GPT-4,后者提供了 128,000 个 token 的窗口。Anthropic 表示,与之前的模型相比,新模型输出虚假陈述的可能性更小。Claude 2.1 会试图避免不正确的答案并承认一些问题存在不确定性,它输出相关答案时一般会选择提出质疑,而不是提供不正确的信息。Anthropic 表示,该模型输出的错误答案减少了 30%,并且模型错误地作出缺乏信源的判断的比率大大降低。



另一个值得注意的新增特性是 Claude 2.1 使用工具并与 API 交互的能力。该功能让模型能够利用计算器、数据库等外部资源,甚至执行网络搜索来更有效地响应查询。它还可以集成到用户的技术栈中,从而在各个领域中实现更多样化的应用。

 

此外,Claude 2.1 引入了系统提示词,使用户能够为其请求设置特定的上下文。此功能可确保模型的响应更加结构化且前后一致。现在模型的价格定为输入的提示词每百万 token 8 美元,模型输出则是每百万 token 24 美元,这样包括开发人员和企业在内的很多用户群体都能负担得起了。

 

一些用户对新模型的评价褒贬不一。从积极的一面来看,一些用户发现 Claude 2.1 非常适合聊天和摘要等任务,并赞扬了它的进步和功能改进,特别是在摘要任务方面。然而,其他用户也对该模型的拒绝响应情况和严格的审查表示失望,一些用户认为这让这款工具的实用性和自主性打了折扣。此外,由于严格的安全协议和内容指南,人们担心 Claude 在处理某些内容(例如学术或研究材料)方面存在局限性。



发现:

  • 在 200K 个 token(近 470 页)的情况下,Claude 2.1 能够回忆起某些文档级深度的事实

  • 文档最顶部和最底部的事实被回忆的准确率接近 100%

  • 位于文档顶部的事实的回忆性能低于底部(类似于 GPT-4)

  • 从 ~90K token 开始,文档底部的回忆性能开始变得越来越差

  • 无法保证短上下文长度下的性能 - Greg Kamradt


Anthropic 及时推出 Claude 2.1 的时机恰逢 OpenAI 的内部冲突时期,后者导致 ChatGPT Plus 订阅暂停购买,首席执行官 Sam Altman 也陷入了风波。尽管如此,Devin Coldewey 写道,“不管怎样,GPT-4 仍然是代码生成领域的黄金标准,Claude 处理输入请求的方式与竞争对手是不一样的,有些更好,有些更差。”

 

想要了解更多关于 Claude 2.1 细节的用户可以参考 Anthropic 网站上的模型介绍页面。 Anthropic 还制作了一个示例存储库,演示如何使用工具功能。

 

原文链接

https://www.infoq.com/news/2023/11/anthropic-announces-claude-2-1/

2023-12-14 12:575547

评论

发布
暂无评论

牛逼!这份24W字的SpringBoot从入门到实战让你彻底玩明白

了不起的程序猿

Java springboot java程序员

在线SQL转YAML工具

入门小站

工具

自动化生成Javascript调用后台代码v0.5.3版本

百家饭隐私计算平台创业者

JavaScript API

华为云Stack南向开放框架,帮助生态伙伴高效入云

华为云开发者联盟

云计算 后端

要想不踩SaaS那些坑,得先了解“SaaS架构”

华为云开发者联盟

云计算 开发 SaaS DTT

JSON 和JavaScript 介绍与区别

devpoint

JavaScript json 7月月更

使用Java客户端发送消息和消费的应用

hum建应用专家

云计算

企业在创建产品帮助中心时需要注意的问题!

Baklib

企业 客户服务 帮助中心

linux之拖拽上传文件

入门小站

Linux

在创建生成WIFI二维码手机扫码链接

入门小站

工具

鸿湖万联致远开发板正式合入OpenHarmony主干

科技汇

HDFS、纱线、蜂巢MRS中使用Ranger实现权限管理全栈式实践

华为云开发者联盟

大数据 后端 MRS

使用 SSH 方式拉取代码

攻城狮杰森

git GitHub SSH gitee 7月月更

区块链合约安全系列(三):如何认识及预防公链合约中的自毁攻击

BSN研习社

区块链、

Allure测试报告怎么设置

和牛

测试

Allure测试报告怎么设置

和牛

测试

渲染与云渲染:一部电影的制作25%的时间是在“等”

Finovy Cloud

GPU服务器

国内外知名的待办事项app有哪些

爱吃小舅的鱼

待办事项 todolist

SQL也能做AI ?没错!MLOps Meetup V3 回顾|OpenMLBD+SQLFlow+Byzer

星策开源社区

人工智能 机器学习 sql 特征平台

24小时自助共享洗车有人洗吗

共享电单车厂家

24小时无人自助洗车 自助洗车加盟 车白兔自助洗车 自助洗车店

深入理解 Linux 的 TCP 三次握手

C++后台开发

Linux TCP 后端开发 C++后台开发 C++开发

行业首个「视频直播技术最佳实践图」发布!

阿里云视频云

阿里云 音视频 直播

Docker(二)Docker-Compose、网络、数据卷

神农写代码

如何在企业工作中应用知识管理,解决企业的问题?

Baklib

知识管理

C 语言入门(六)

逝缘~

7月月更

九联科技开发板正式合入OpenHarmony主干

科技汇

Grafana Labs携手阿里云,将提供国内首款Grafana托管服务

Lily

“智慧工厂”上线,破局传统工厂数字化转型

AIRIOT

低代码 物联网 低代码,项目开发

17张图带你深度剖析 ArrayDeque(JDK双端队列)源码

程序员小毕

Java 源码 程序员 jdk 队列

洗车店洗车贵试试自助洗车吧

共享电单车厂家

自助洗车加盟 车白兔自助洗车 什么是自助洗车 自助洗车价格

英特尔发布开源AI参考套件

科技之家

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具_生成式 AI_InfoQ精选文章