谷歌Gemini API新分层：弹性与优先模式上线

币圈界 2026-04-03 19:27:34 区块链

摘要：谷歌推出Gemini API全新服务层级，新增弹性版与优先版，分别面向非紧急后台任务与高时效性应用，实现成本与性能的精准平衡。开发者可基于单一接口灵活切换，显著提升AI应用架构效率。

币圈界报道：

4月2日，谷歌正式对Gemini API实施全面定价重构，推出涵盖标准、弹性、优先、批量及缓存五大层级的服务体系。此次调整旨在为开发者提供更精细化的资源配置选项，使其可根据应用对延迟容忍度、处理优先级和预算控制的需求，动态优化模型调用策略。

谷歌引入两项新服务：弹性版专为可接受延迟的后台作业设计，利用低峰期闲置算力资源，实现50%的成本节约；优先版则针对实时关键任务，定价较标准版上浮75%至100%，确保毫秒至秒级响应能力。批量版维持原有50%折扣，但允许最长24小时的处理延迟，适用于离线密集计算场景。

弹性版通过同步端点机制，支持无需文件管理或状态追踪的直接调用，简化了异步任务集成流程，同时保留成本优势。其典型用途包括客户关系系统数据同步、研究模型训练以及自动化代理流程执行。

优先版则面向高风险、强时效性的应用场景，如实时客服对话系统、金融欺诈检测和内容安全过滤。当配额超限，超出请求将自动平滑迁移至标准层级，避免服务中断。

原批量API继续以50%折扣运行，适用于不依赖即时反馈的大型离线运算任务，例如大规模数据分析或模型微调。

缓存层级采用按令牌用量与存储时长双重计费的模式，适合需频繁复用上下文的长期对话系统、跨视频数据集的重复分析，或覆盖海量文档的智能检索应用。

所有层级均通过统一的service_tier参数进行配置，开发者可在不同级别间无缝切换，且每次请求返回中会明确标识所使用的服务层级，便于监控与成本归因。

弹性版面向所有生成内容与交互接口的付费用户开放；优先版则仅限二级与三级订阅账户使用，保障高价值客户的专属服务能力。

此次升级的核心突破在于标准化接口设计。过去，开发者需为异步批处理与同步交互分别构建独立架构，如今通过整合同步端点，实现了前后台任务的一体化管理。这一改进被谷歌视为推动自主式AI代理发展的关键技术支撑，因其能同时高效处理低优先级后台工作与高敏感度实时交互。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U