写点什么

成本直降 90%、延迟缩短 80%!Anthropic 将 API 玩出了新花样,网友:应该成为行业标配

  • 2024-08-16
    北京
  • 本文字数:2135 字

    阅读完需:约 7 分钟

大小:1.02M时长:05:57
成本直降90%、延迟缩短80%!Anthropic将API玩出了新花样,网友:应该成为行业标配

Anthropic 在其 API 上引入了新的提示词缓存机制,可将长提示的成本降低多达 90%,并将延迟降低 80%。

 

提示词缓存功能能够记住 API 调用之间的上下文,并帮助开发人员避免输入重复提示内容。目前该功能已经在 Claude 3.5 Sonnet 以及 Claude 3 Haiku 当中以 beta 测试版的形式开放,但对 Claude 旗下最大模型 Opus 的支持仍未交付。

 


提示词缓存的概念源自 2023 年的研究论文,其允许用户在会话中保留常用的上下文。由于模型能够记住这些提示词,因此用户可以添加额外的背景信息而不必重复承担成本。这一点对于需要在提示词中发送大量上下文,并在与模型的不同对话中多次引用的使用场景非常重要。它还允许开发人员及其他用户更好地对模型响应作出微调。

 

Anthropic 表示,早期用户“已经在多种用例中观察到,使用提示词缓存后速度及成本都出现了显著改善——测试范围从完整知识库到 100 个样本示例,再到在提示词中包含对话的每个轮次。”

 

该公司表示,提示词缓存的潜在效果包括降低对话智能体在处理长指令及上传文档时的成本和延迟、加快代码的自动补全速度、向智能体搜索工具提交多条指令,以及在提示词中嵌入完整文档等等。

 


Anthropic 刚刚公布了一项改变其 API 游戏规则的功能:提示词缓存。

大家可以这样理解提示词缓存的概念:你选中了一家咖啡厅。第一次光顾时,我们需要逐个挑选出自己喜欢的品类。而下次到店时,直接说“老样子”就好。

这就是提示词缓存...... 

提示词缓存价格

提示词缓存的主要优势在于每 token 的价格较低,Anthropic 表示使用这项功能要比“直接输入 token 便宜得多”。

 

以 Claude 3.5 Sonnet 为例,初次输入提示词时每 100 万 token(MTok)的成本为 3.75 美元,但随后调用缓存提示词的每百万 Token 成本仅为 0.30 美元。Claude 3.5 Sonnet 模型的基础提示词输入价格为每百万个 3 美元,也就是说只要预先多付一点钱,那么在下次使用缓存提示词时就能将成本压低至十分之一。

 


我们刚刚在 Anthropic API 中推出了提示词缓存功能。

它能够将 API 的输入成本降低 90%,并将延迟降低 80%。

 

说到成本,尽管初始 API 调用会稍贵一些(毕竟需要将提示词存储在缓存当中),但一切后续调用都只是正常输入价格的十分之一。

 


Claude 3 Haiku 用户使用提示词缓存时每百万 token 时需要额外支付 0.30 美元,而在调用已缓存提示词时每百万 token 价格仅为 0.03 美元。

 

虽然 Claude 3 Opus 尚未提供提示词缓存,但 Anthropic 已经提前公布了具体价格。写入缓存的价格是每百万 token 18.75 美元,而访问已缓存提示词的每百万 token 价格为 1.50 美元。

 

然而,正如 AI 意见领袖 Simon Willison 在 X 上发帖所言,Anthropic 的缓存只有 5 分钟的生命周期,而且每次使用时都会刷新。

 


这看起来跟 Gemini 的上下文缓存功能类似,只是 Anthropic 提出了独立的定价模式。

Gemini 为百万个 token 每小时收取 4.50 美元的费用,即可保持上下文缓存。

Anthropic 直接对缓存输入量收费,而且“缓存的生命周期只有 5 分钟,且每次使用缓存内容时都会刷新”。

 

当然,这也绝不是 Anthropic 第一次尝试通过定价手段跟其他 AI 平台竞争了。在发布 Claude 3 系列模型之前,Anthropic 就曾大幅下调过其 token 的计费标准。

 

在当初为自家平台上的第三方开发商提供低价选项之后,现如今他们再次针对谷歌和 OpenAI 等竞争对手展开一场“比比谁价低”的烈性对抗。

 

功能本身确实备受期待

 

为 Claude 模型引入提示缓存代表了 AI 交互效率的重大飞跃。尤其是在考虑诸如检索增强生成(RAG)或其他长上下文模型等替代方案时,其重要性不容忽视。

 

虽然 RAG 一直是通过外部知识增强 AI 模型的一种流行方法,但 Claude 的提示缓存提供了几个优势:

  • 简单性:不需要复杂的向量数据库或检索机制

  • 一致性:缓存的信息始终可用,确保一致的响应

  • 速度:所有信息都可以立即访问,响应速度更快

 

与具有扩展上下文窗口的模型(如谷歌的 Gemini Pro)相比,Claude 的提示缓存提供了以下优势:

  • 成本效益:只需为使用的部分付费,而不是为整个上下文窗口付费

  • 灵活性:可以轻松更新或修改缓存信息,而无需重新训练

  • 可扩展性:潜在的无限上下文大小,不受模型架构的限制

 

其他平台也开始提供类似的提示词缓存版本。Lamina 是一套大语言模型推理系统,尝试利用 KV 缓存来降低 GPU 使用成本。而随意浏览一下 OpenAI 的开发者论坛或者 GitHub,就会发现大量跟提示词缓存相关的话题。

 

提示词缓存跟大语言模型自己的提示词记忆并不是一回事。例如,OpenAI 的 GPT-4o 就提供记忆机制,模型可以借此记住用户的某些偏好或详细信息。但其无法像提示词缓存那样存储具体提示词及响应结果。

 


X 平台上对此的讨论也很多,有网友评价“提示词缓存”有 100%的颠覆性,应该作为标准被每家大模型厂商采用。

 


还有网友对 AnthropicAI 提示缓存进行了独立评估——结果简直令人震惊,Claude 3.5 Sonnet 能做到 90%的成本节省,而在 Claude 3 Haiku 上甚至能做到 97%的成本节省。

 

展望未来,Claude 的提示缓存在推动更高效、更具成本效益的 AI 交互方面迈出了重要的一步。通过减少延迟、降低成本,并简化复杂知识的整合,这一功能为各行业的 AI 应用开辟了新的可能性。

 

参考链接:

 

https://venturebeat.com/ai/anthropics-new-claude-prompt-caching-will-save-developers-a-fortune/

https://towards-agi.medium.com/how-to-use-claude-prompt-caching-and-ditch-rag-1837add5a733

2024-08-16 18:3810520

评论

发布
暂无评论
发现更多内容

Github 2020 年度报告:你以为新冠击溃了开发者?不!他们创造了更多代码...

阿里巴巴云原生

开源 Serverless 程序员 代码

智慧警务开发,二维码定位报警系统搭建

t13823115967

智慧公安 智慧公安扫码

iOS面试基础知识 (一)

iOSer

ios 面试 runtime 编程开发 iOS Developer

《数据结构与抽象:Java语言描述》.pdf

田维常

数据结构

仅凭这份Java大纲笔记,我如愿拿到了阿里offer。

Java架构之路

Java 程序员 架构 面试 编程语言

四面腾讯pcg后端开发岗,一个星期面完成功拿到20K的offer。分享面经

Java架构之路

Java 程序员 架构 面试 编程语言

助力孩子走上学霸之路,K12学习神器现已面世!

E科讯

SGY奇点交易所系统软件APP开发

系统开发

动态高并发时为什么推荐ReentrantLock而不是Synchronized?

moon聊技术

JVM 并发 synchronized ReentrantLock 锁升级

话题讨论 | 程序员自己电脑中毒是甚么体验?

xcbeyond

话题讨论

超详细讲解!Android面试真题解析火爆全网,搞懂这些直接来阿里入职

欢喜学安卓

android 编程 程序员 面试 移动开发

某美女的程序员老公半夜都还不回家,原来是偷偷在公司看Redis+JVM+Spring cloud+MySQL技术文档

Java架构之路

Java 程序员 架构 面试 编程语言

港美股交易系统开发框架构造简述篇

软件开发大鱼V15988750073

国际配售 港股交易系统开发 证券交易系统 资管系统 港股打新系统

阿里架构师经验分享!啃完999页Android面试高频宝典,面试心得体会

欢喜学安卓

android 程序员 面试 移动开发

Mybatis动态映射,so easy啦

田维常

还有谁比阿里人更懂SpringCloud Alibaba 呢?P8大牛纯手打笔记免费分享!

Java架构之路

Java 程序员 架构 面试 编程语言

恕我直言!有了这份MySQL学习文档,你收藏夹里的其他MySQL学习资料都可以扔了

Java架构之路

Java 程序员 架构 面试 编程语言

DolphinDB与Elasticserach在金融数据集上的性能对比测试

DolphinDB

数据处理 金融 时序数据库 tsdb DolphinDB

区分Protobuf 3中缺失值和默认值

Gopher指北

protobuf Go 语言

刚拿到蚂蚁金服架构师offer!大佬教你如何成为offer收割机

比伯

Java 编程 架构 面试 计算机

请问如何短时间突击 Java 通过面试?

Java架构师迁哥

了解OAuth2.0

环信

EPBC环保生态链系统开发案例丨环保生态链EPBC源码平台

系统开发咨询1357O98O718

环保链APP系统开发案例

区块链BaaS应用平台开发

13828808769

新思科技最新报告显示开源安全是首要考虑因素

InfoQ_434670063458

用60行代码实现一个高性能的圣诞抽抽乐H5小游戏(含源码)

徐小夕

Java 大前端 H5游戏 H5

区块链信息共享应用落地搭建解决方案

t13823115967

区块链+ 区块链应用 信息共享

Scala中String和Int隐式转换的问题分析

木子李G

scala 大数据 编程 隐式转换

服务于阿里、滴滴、华为等一线互联网公司的分布式消息中间件RocketMQ核心笔记

Java架构追梦

Java 架构 面试 RocketMQ 消息中间件

SGY奇点交易所系统软件开发|SGY奇点交易所APP开发

系统开发

JS&Swift

ios swift

成本直降90%、延迟缩短80%!Anthropic将API玩出了新花样,网友:应该成为行业标配_生成式 AI_Tina_InfoQ精选文章