克雷西发自凹非寺
量子位公众号 QbitAI
Claude 深夜上新重磅功能——API 长文本缓存。
新版 API 可以“记住”一整本书或整个代码库,不需要再重复输入了。
这样一来,不仅处理长文本的延时更低,更是能节省最高 90% 的成本。
来看看这降本的效果~
△假定重复部分为 1 万 Token,模型为 3.5 Sonnet,只计算输入
今年 5 月,谷歌在 Gemini 更新中提出了这项功能,然后是国内的 Kimi 和 DeepSeek 团队,总之现在又轮到了 Claude。
值得一提的是,厂商 Anthropic 的推文当中提到,提示词缓存功能可以让用户用更长、更有指导性的提示词对模型进行“微调”。
有网友看了之后感慨,人们本来就很难分清提示工程(prompting)和微调(fine-tune),这下更不好区分了。
当然在这种场合下,也难免会有人点名或不点名地 cue 起隔壁的 OpenAI。
成本节约高至 90%
提示词缓存的作用,就是一次给模型发送大量 prompt,然后让它记住这些内容,并在后续请求中直接复用,避免反复输入。
对此,博主 Dan Shipper 做了这样的一个比喻:
假设你在一家咖啡馆,第一次点单的时候需要告诉店员自己点的内容,但是接下来再去只需要说一句“和平常一样”就可以了。
不过需要注意的是,缓存的有效期为五分钟,但每读取一次计时都会被重置,一直连续提问时无需担心。
在 Claude 的官方文档中,也介绍了几个典型的应用场景,非常适合代码和长文档处理。
- 对话:降低扩展会话的成本和延迟,尤其是包含长指令或附有文档的会话;
- 代码助理:通过在 prompt 保存的对代码库的总结,改善代码自动补全和问答功能;
- 大型文档处理:在提示中纳入完整的长格式材料(包括图像),而不会增加响应延迟;
- 详细的指令集:(在多个对话中)共享详细的指令、过程和示例列表以进行微调 Claude 的回应;
- 搜索和工具调用:增强涉及多轮工具调用和迭代更改的场景的性能;
- 长文本对话:将整个文档(书、论文、播客脚本等)嵌入到提示中并让用户提出问题,从而对知识库进行增强。
由于不需要反复输入重复的脚本,提示词缓存具有速度更快、成本更低这两大优势。
比如在基于一本 10 万 Tokens 的图书进行对话时,以往模型需要 11.5 秒才能生成首个输出 Token,但有了提示词缓存就只需要 2.4 秒,降低了 79%,成本更是减少 90%。
在其他场景中,延时和成本也有不同程度的降低。
定价上,原有的输入和输出 Token 价格不变,提示词缓存的价格则分成了写入和读取两个部分。
最小的 Haiku 每百万 Token 的写入和读取价格分别是 30 美分(约合人民币两块一)和 3 美分。
3. 5 Sonnet 则是写入 3.75 美元,读取 0.3 美元,最大号的 Opus 是 18.75 美元和 1.5 美元。
可以看出,初始写入的价格相对于输入要高一些,但读取的价格只有重复输入的十分之一。
换言之,缓存被反复读取的次数越多,相比于重新输入节约的成本也就越多。
举个例子,假设要发送 1 万次请求,重复部分包含 1 万 Tokens,如果不用缓存,总输入是 1 亿 Tokens,用 Sonnet 需要 300 美元。
但如果开启缓存,就只需要1÷100×3.75+1×10000÷100×0.3=30.03 美元,节省了近 90%。
还是假设重复部分包含 1 万 Tokens,那么从下图可以看出,随着调用次数的增加,成本优势将越来越明显
对于开发者来说,这无疑是一项重大利好。
AI 写作工具 HyperWriteAI 创始人兼 CEO Matt Shumer 就表示,这项更新相当重大。
这意味着人们可以用更低的成本把一整个代码库喂给模型,然后要求增加新功能;或者突破一次只能 RAG 5 个的限制,直接输入大量文档;又或者直接给出数百个示例,以得到“比微调更好的结果”。
目前该功能支持 3 Haiku 和 3.5 Sonnet,Opus 则将在稍晚一些更新。
顶级玩家纷纷跟进
这项功能并非是 Claude 首创,今年 5 月,谷歌的 Gemini 就已经支持了上下文缓存。
后来国内月之暗面的 Kimi 和深度求索团队的 DeepSeek 也进行了跟进。
值得一提的是,DeepSeek 团队把这项技术的存储介质换成了硬盘,还降低了存储成本。
触发方式也有所区别,比如 DeepSeek 是由系统自动判断哪些内容需要缓存,Claude 则是要在调用时手动添加标记。
虽然在细节上各家有各自的做法,但这种新模式,已经受到了国内外顶级玩家的青睐,未来可能会成为大模型厂商的新标配。
参考链接:
[1]https://twitter.com/anthropicai/status/1823751314444021899
[2]https://www.anthropic.com/news/prompt-caching
[3]https://twitter.com/danshipper/status/1823790134745289106