国思软件 - 成本降低90%！Claude上新提示词缓存，一次性记住整个代码库

　　克雷西发自凹非寺

　　量子位公众号 QbitAI

　　Claude 深夜上新重磅功能——API 长文本缓存。

　　新版 API 可以“记住”一整本书或整个代码库，不需要再重复输入了。

　　这样一来，不仅处理长文本的延时更低，更是能节省最高 90% 的成本。

　　来看看这降本的效果~

　　△假定重复部分为 1 万 Token，模型为 3.5 Sonnet，只计算输入

　　今年 5 月，谷歌在 Gemini 更新中提出了这项功能，然后是国内的 Kimi 和 DeepSeek 团队，总之现在又轮到了 Claude。

　　值得一提的是，厂商 Anthropic 的推文当中提到，提示词缓存功能可以让用户用更长、更有指导性的提示词对模型进行“微调”。

　　有网友看了之后感慨，人们本来就很难分清提示工程（prompting）和微调（fine-tune），这下更不好区分了。

　　当然在这种场合下，也难免会有人点名或不点名地 cue 起隔壁的 OpenAI。

　　成本节约高至 90%

　　提示词缓存的作用，就是一次给模型发送大量 prompt，然后让它记住这些内容，并在后续请求中直接复用，避免反复输入。

　　对此，博主 Dan Shipper 做了这样的一个比喻：

假设你在一家咖啡馆，第一次点单的时候需要告诉店员自己点的内容，但是接下来再去只需要说一句“和平常一样”就可以了。

　　不过需要注意的是，缓存的有效期为五分钟，但每读取一次计时都会被重置，一直连续提问时无需担心。

　　在 Claude 的官方文档中，也介绍了几个典型的应用场景，非常适合代码和长文档处理。

　　由于不需要反复输入重复的脚本，提示词缓存具有速度更快、成本更低这两大优势。

　　比如在基于一本 10 万 Tokens 的图书进行对话时，以往模型需要 11.5 秒才能生成首个输出 Token，但有了提示词缓存就只需要 2.4 秒，降低了 79%，成本更是减少 90%。

　　在其他场景中，延时和成本也有不同程度的降低。

　　定价上，原有的输入和输出 Token 价格不变，提示词缓存的价格则分成了写入和读取两个部分。

　　最小的 Haiku 每百万 Token 的写入和读取价格分别是 30 美分（约合人民币两块一）和 3 美分。

　　3. 5 Sonnet 则是写入 3.75 美元，读取 0.3 美元，最大号的 Opus 是 18.75 美元和 1.5 美元。

　　可以看出，初始写入的价格相对于输入要高一些，但读取的价格只有重复输入的十分之一。

　　换言之，缓存被反复读取的次数越多，相比于重新输入节约的成本也就越多。

　　举个例子，假设要发送 1 万次请求，重复部分包含 1 万 Tokens，如果不用缓存，总输入是 1 亿 Tokens，用 Sonnet 需要 300 美元。

　　但如果开启缓存，就只需要1÷100×3.75+1×10000÷100×0.3=30.03 美元，节省了近 90%。

　　还是假设重复部分包含 1 万 Tokens，那么从下图可以看出，随着调用次数的增加，成本优势将越来越明显

　　对于开发者来说，这无疑是一项重大利好。

　　AI 写作工具 HyperWriteAI 创始人兼 CEO Matt Shumer 就表示，这项更新相当重大。

　　这意味着人们可以用更低的成本把一整个代码库喂给模型，然后要求增加新功能；或者突破一次只能 RAG 5 个的限制，直接输入大量文档；又或者直接给出数百个示例，以得到“比微调更好的结果”。

　　目前该功能支持 3 Haiku 和 3.5 Sonnet，Opus 则将在稍晚一些更新。

　　顶级玩家纷纷跟进

　　这项功能并非是 Claude 首创，今年 5 月，谷歌的 Gemini 就已经支持了上下文缓存。

　　后来国内月之暗面的 Kimi 和深度求索团队的 DeepSeek 也进行了跟进。

　　值得一提的是，DeepSeek 团队把这项技术的存储介质换成了硬盘，还降低了存储成本。

　　触发方式也有所区别，比如 DeepSeek 是由系统自动判断哪些内容需要缓存，Claude 则是要在调用时手动添加标记。

　　虽然在细节上各家有各自的做法，但这种新模式，已经受到了国内外顶级玩家的青睐，未来可能会成为大模型厂商的新标配。

　　参考链接：

成本降低90%！Claude上新提示词缓存，一次性记住整个代码库