源信息经过deepseek翻译并总结

摘要：

云服务商以租赁模式吸引企业使用AI基础设施，但规模化后推理和训练需求导致成本激增（“云税”）。企业采用混合架构：本地或托管机房处理推理（降本60-80%），云端保留训练任务，兼顾成本可控性、低延迟与合规性。尽管运营复杂，长期成本优势显著。建议企业优化云使用，将其作为实验工具，配合成本监控实现高效资源配置。

推理陷阱：云服务商如何蚕食你的AI利润空间 | VentureBeat

跳过主内容

活动
 视频
 特刊
 招聘

返回VentureBeat首页

订阅
 活动
 视频
 特刊
 招聘

推理陷阱：云服务商如何蚕食你的AI利润空间

Shubham Sharma @mr_bumss
2025年6月27日下午1:00

本文为VentureBeat特刊《AI的真实成本：规模化下的性能、效率与投资回报》系列文章之一。阅读更多特刊内容

人工智能已成为现代企业的圣杯。无论是客户服务还是管道维护等细分领域，各行各业的组织都在应用从基础模型到VLA等AI技术，以实现效率提升。目标很明确：通过自动化任务高效交付成果，同时节省资金和资源。

但当这些项目从试点进入生产阶段时，团队会遭遇始料未及的障碍——云成本正在吞噬利润。这种价格冲击如此严重，以至于原本快速创新的捷径迅速变成预算黑洞，最终变得不可持续。

这迫使CIO们重新审视一切——从模型架构到部署模式——以重获对财务和运营的控制权。有时他们甚至会彻底叫停项目，推倒重来。

但事实是：虽然云成本可能高得难以承受，但它并非罪魁祸首。关键在于理解针对不同工作负载（workload）应该选择何种车辆（AI基础设施）。

云服务的故事——及其适用场景

云服务就像公共交通（地铁和公交）。通过简单的租赁模式即可获得从GPU实例到跨地域快速扩展的所有资源，以最小的工作量和设置实现目标。

这种通过服务模式实现的快速简易访问，能确保项目顺利启动，在无需购置专业GPU的大额前期资本支出情况下，快速开展实验。

大多数早期初创企业发现这种模式极具吸引力，尤其是当他们仍处于验证模型和确定产品市场匹配度阶段时，快速周转比什么都重要。

“注册账号、点击几下按钮就能获得服务器。需要不同规格的GPU时，关闭并重启实例只需几分钟。想同时运行两个实验？初始化两个独立实例即可。早期阶段的重点是快速验证想法。“语音AI公司Speechmatics产品负责人Rohan Sarin告诉VentureBeat。

“便捷”的代价

虽然云服务对早期使用非常理想，但当项目从测试验证转向实际业务量时，基础设施的经济账就变得严峻起来。工作负载规模会让账单变得残酷——成本可能在一夜之间飙升超过1000%。

这种情况在推理环节尤为明显，推理不仅需要24/7运行以保证服务正常，还需随客户需求扩展。

Sarin解释道，大多数情况下，当其他客户也在请求GPU资源时，推理需求会激增，导致资源竞争加剧。这时团队要么保留固定容量以确保需求得到满足（在非高峰时段造成GPU闲置），要么承受延迟，影响下游体验。

AI合规平台EasyAudit AI首席执行官Christian Khoury将推理称为新的”云税”，他向VentureBeat透露，曾见过企业因推理流量导致月成本从5000美元一夜飙升至5万美元。

值得注意的是，采用按token计费的LLM推理工作负载可能引发最剧烈的成本增长。因为这些模型具有非确定性，在处理长时间任务（涉及大上下文窗口）时可能生成不同输出。随着持续更新，预测或控制LLM推理成本变得极为困难。

模型训练本身具有”突发性”（集群式发生），这确实为容量规划留出空间。但即便如此，在竞争加剧迫使频繁重训练的情况下，企业仍可能因过度配置导致GPU闲置而产生巨额费用。

“云平台的训练积分非常昂贵，快速迭代周期中的频繁重训练会迅速推高成本。长时间训练需要大型机器支持，而多数云服务商只对年租容量提供保障。如果你的训练只需几周，仍需支付全年费用。“Sarin解释道。

问题不止于此。云锁定真实存在。如果你签订了长期预留合约并购买了服务商积分，就会被锁定在其生态系统中，即使其他服务商已升级到更新更好的基础设施。最终当你能够迁移时，可能还需承担高昂的出口费用。

“不仅是计算成本。你还会遇到…不可预测的自动扩展，以及跨区域或供应商传输数据时的天价出口费。有团队为数据迁移支付的费用甚至超过了模型训练。“Sarin强调道。

解决方案是什么？

鉴于扩展AI推理的持续基础设施需求与训练的突发性特性，企业正转向拆分工作负载——将推理迁移至托管机房或本地堆栈，同时利用云竞价实例处理训练。

这不仅是理论——正成为工程领导者们将AI投入生产而不耗尽资金的趋势。

“我们帮助团队使用专用GPU服务器将推理迁移至托管机房。虽然不够时髦，但能将月度基础设施支出削减60-80%。“Khoury补充道，“混合方案不仅更经济——也更智能。”

他举例说，某SaaS公司通过将推理工作负载移出云端，月AI基础设施费用从约4.2万美元降至9000美元。转型成本在两周内即收回。

另一个需要为AI客服工具保持50毫秒以下响应延迟的团队发现，基于云的推理延迟无法达标。通过托管机房使用户就近推理，不仅解决了性能瓶颈——还将成本减半。

典型配置如下：持续运行且对延迟敏感的推理在本地或就近数据中心（托管设施）的专用GPU上运行；而计算密集但间歇性的训练则保留在云端，可根据需求启动强大集群，运行数小时或数天后关闭。

总体而言，据估算，从超大规模云服务商租用资源的每小时GPU成本，是小型供应商的3-4倍，与本地基础设施相比差距更大。

另一大优势？可预测性。

通过本地或托管堆栈，团队还能完全控制预期推理工作负载所需的资源配置。这为基础设施成本带来可预测性——消除意外账单。同时也减少了为合理控制云基础设施成本而进行的激进调优工程。

混合架构还能降低对时效敏感型AI应用的延迟，并帮助受严格监管行业（如金融、医疗和教育）团队更好地满足合规要求——这些领域的数据驻留和治理不容妥协。

混合模式的复杂性真实存在——但很少成为阻碍

一如既往，向混合模式转型也伴随着运营成本。自建硬件或租用托管设施需要时间，在云外管理GPU也需要不同的工程能力。

但领导者们认为这种复杂性常被夸大，除非处于极端规模，否则通常可通过内部或外部支持管理。

“我们计算显示，本地GPU服务器的成本约等于租用AWS、Azure或谷歌云同等实例6-9个月的费用（即使采用一年预留费率）。由于硬件通常至少能用三年，往往超过五年，因此前九个月即可实现成本转正。部分硬件供应商还提供基础设施的操作性定价模式，若现金流紧张可避免前期支付。“Sarin解释道。

按需优先

对所有企业（无论是初创还是大型企业）而言，在架构或重构AI基础设施时取得成功的关键，在于根据具体工作负载采取行动。

如果不确定不同AI工作负载的需求，可以从云入手，通过为每个资源标注负责团队来密切跟踪相关成本。将这些成本报告分享给所有经理，深入分析他们使用资源的状况及影响。这些数据将明确方向，帮助提高效率。

也就是说，记住这并非要完全抛弃云——而是优化其使用以实现效率最大化。

“云仍非常适合实验和突发性训练。但如果推理是核心工作负载，就应摆脱租赁模式。混合方案不仅更经济…也更智能。“Khoury补充道，“将云视为原型环境而非永久家园。仔细核算成本。与工程师沟通。云服务永远不会告诉你何时用错了工具。但AWS账单会。“

最新发布：VB Transform 2025新增50张门票

2025年6月24-25日，加入旧金山顶级领袖行列，解决真实AI挑战，分享有效经验，塑造未来趋势。席位有限，速速报名。

了解更多### 你需要的AI洞察领导力

提交

感谢订阅。查看更多VB新闻通讯请点击此处。

发生错误。

推理陷阱：云服务提供商如何蚕食你的AI利润

摘要：