本文作者:访客

谷歌 Gemini 2.5 API 推“隐式缓存”,开发者成本最高降低 75%

访客 2025-05-10 12:11:25 18
谷歌 Gemini 2.5 API 推“隐式缓存”,开发者成本最高降低 75%摘要: 5月10日消息,科技媒体WinBuzzer昨日(5月9日)发布博文,报道称谷歌为其Gemini2.5API,推出了“隐式缓存”(ImplicitCaching)功能,自动识别并重用...
5月10日消息,科技媒体WinBuzzer昨日(5月9日)发布博文,报道称谷歌为其Gemini2.5API,推出了“隐式缓存”(ImplicitCaching)功能,自动识别并重用API请求中的常见前缀,开发者的成本最高可以降低75%。该功能适用于Gemini2.5Pro和Gemini2.5Flash模型,自动检测API请求中的重复前缀并加以重用,开发者的使用成本最高可以降低75%。注:与2024年5月推出的“显式缓存”(ExplicitCaching)不同,隐式缓存无需开发者手动配置,系统默认开启,节省成本的同时大幅简化操作流程。
为帮助开发者充分利用隐式缓存,谷歌建议在构建提示词(Prompt)时,将稳定、常见的内容放在开头,后面再添加用户特定的变量内容。此外,短时间内发送具有相似前缀的请求也能提高缓存命中率。谷歌还设定了最低Token数量要求:Gemini2.5Flash需1024个Token,Gemini2.5Pro则需2048个Token。API响应中新增的“cached_content_token_count”字段会显示缓存Token的使用情况和优惠计费详情。与此同时,显式缓存仍作为可选方案,支持Gemini2.5及2.0模型,允许开发者自定义缓存内容和生存时间(TTL,默认1小时)。谷歌此举虽宣称成本节省75%,但实际效果尚待第三方验证,且可能因使用模式不同而有所差异。

谷歌 Gemini 2.5 API 推“隐式缓存”,开发者成本最高降低 75%

阅读
分享