源信息经过deepseek翻译并总结
摘要:
云服务商以租赁模式吸引企业使用AI基础设施,但规模化后推理和训练需求导致成本激增(“云税”)。企业采用混合架构:本地或托管机房处理推理(降本60-80%),云端保留训练任务,兼顾成本可控性、低延迟与合规性。尽管运营复杂,长期成本优势显著。建议企业优化云使用,将其作为实验工具,配合成本监控实现高效资源配置。
推理陷阱:云服务商如何蚕食你的AI利润空间 | VentureBeat
推理陷阱:云服务商如何蚕食你的AI利润空间
Shubham Sharma @mr_bumss
2025年6月27日 下午1:00
本文为VentureBeat特刊《AI的真实成本:规模化下的性能、效率与投资回报》系列文章之一。阅读更多特刊内容
人工智能已成为现代企业的圣杯。无论是客户服务还是管道维护等细分领域,各行各业的组织都在应用从基础模型到VLA等AI技术,以实现效率提升。目标很明确:通过自动化任务高效交付成果,同时节省资金和资源。
但当这些项目从试点进入生产阶段时,团队会遭遇始料未及的障碍——云成本正在吞噬利润。这种价格冲击如此严重,以至于原本快速创新的捷径迅速变成预算黑洞,最终变得不可持续。
这迫使CIO们重新审视一切——从模型架构到部署模式——以重获对财务和运营的控制权。有时他们甚至会彻底叫停项目,推倒重来。
但事实是:虽然云成本可能高得难以承受,但它并非罪魁祸首。关键在于理解针对不同工作负载(workload)应该选择何种车辆(AI基础设施)。
云服务的故事——及其适用场景
云服务就像公共交通(地铁和公交)。通过简单的租赁模式即可获得从GPU实例到跨地域快速扩展的所有资源,以最小的工作量和设置实现目标。
这种通过服务模式实现的快速简易访问,能确保项目顺利启动,在无需购置专业GPU的大额前期资本支出情况下,快速开展实验。
大多数早期初创企业发现这种模式极具吸引力,尤其是当他们仍处于验证模型和确定产品市场匹配度阶段时,快速周转比什么都重要。
“注册账号、点击几下按钮就能获得服务器。需要不同规格的GPU时,关闭并重启实例只需几分钟。想同时运行两个实验?初始化两个独立实例即可。早期阶段的重点是快速验证想法。“语音AI公司Speechmatics产品负责人Rohan Sarin告诉VentureBeat。
“便捷”的代价
虽然云服务对早期使用非常理想,但当项目从测试验证转向实际业务量时,基础设施的经济账就变得严峻起来。工作负载规模会让账单变得残酷——成本可能在一夜之间飙升超过1000%。
这种情况在推理环节尤为明显,推理不仅需要24/7运行以保证服务正常,还需随客户需求扩展。
Sarin解释道,大多数情况下,当其他客户也在请求GPU资源时,推理需求会激增,导致资源竞争加剧。这时团队要么保留固定容量以确保需求得到满足(在非高峰时段造成GPU闲置),要么承受延迟,影响下游体验。
AI合规平台EasyAudit AI首席执行官Christian Khoury将推理称为新的”云税”,他向VentureBeat透露,曾见过企业因推理流量导致月成本从5000美元一夜飙升至5万美元。
值得注意的是,采用按token计费的LLM推理工作负载可能引发最剧烈的成本增长。因为这些模型具有非确定性,在处理长时间任务(涉及大上下文窗口)时可能生成不同输出。随着持续更新,预测或控制LLM推理成本变得极为困难。
模型训练本身具有”突发性”(集群式发生),这确实为容量规划留出空间。但即便如此,在竞争加剧迫使频繁重训练的情况下,企业仍可能因过度配置导致GPU闲置而产生巨额费用。
“云平台的训练积分非常昂贵,快速迭代周期中的频繁重训练会迅速推高成本。长时间训练需要大型机器支持,而多数云服务商只对年租容量提供保障。如果你的训练只需几周,仍需支付全年费用。“Sarin解释道。
问题不止于此。云锁定真实存在。如果你签订了长期预留合约并购买了服务商积分,就会被锁定在其生态系统中,即使其他服务商已升级到更新更好的基础设施。最终当你能够迁移时,可能还需承担高昂的出口费用。
“不仅是计算成本。你还会遇到…不可预测的自动扩展,以及跨区域或供应商传输数据时的天价出口费。有团队为数据迁移支付的费用甚至超过了模型训练。“Sarin强调道。
解决方案是什么?
鉴于扩展AI推理的持续基础设施需求与训练的突发性特性,企业正转向拆分工作负载——将推理迁移至托管机房或本地堆栈,同时利用云竞价实例处理训练。
这不仅是理论——正成为工程领导者们将AI投入生产而不耗尽资金的趋势。
“我们帮助团队使用专用GPU服务器将推理迁移至托管机房。虽然不够时髦,但能将月度基础设施支出削减60-80%。“Khoury补充道,“混合方案不仅更经济——也更智能。”
他举例说,某SaaS公司通过将推理工作负载移出云端,月AI基础设施费用从约4.2万美元降至9000美元。转型成本在两周内即收回。
另一个需要为AI客服工具保持50毫秒以下响应延迟的团队发现,基于云的推理延迟无法达标。通过托管机房使用户就近推理,不仅解决了性能瓶颈——还将成本减半。
典型配置如下:持续运行且对延迟敏感的推理在本地或就近数据中心(托管设施)的专用GPU上运行;而计算密集但间歇性的训练则保留在云端,可根据需求启动强大集群,运行数小时或数天后关闭。
总体而言,据估算,从超大规模云服务商租用资源的每小时GPU成本,是小型供应商的3-4倍,与本地基础设施相比差距更大。
另一大优势?可预测性。
通过本地或托管堆栈,团队还能完全控制预期推理工作负载所需的资源配置。这为基础设施成本带来可预测性——消除意外账单。同时也减少了为合理控制云基础设施成本而进行的激进调优工程。
混合架构还能降低对时效敏感型AI应用的延迟,并帮助受严格监管行业(如金融、医疗和教育)团队更好地满足合规要求——这些领域的数据驻留和治理不容妥协。
混合模式的复杂性真实存在——但很少成为阻碍
一如既往,向混合模式转型也伴随着运营成本。自建硬件或租用托管设施需要时间,在云外管理GPU也需要不同的工程能力。
但领导者们认为这种复杂性常被夸大,除非处于极端规模,否则通常可通过内部或外部支持管理。
“我们计算显示,本地GPU服务器的成本约等于租用AWS、Azure或谷歌云同等实例6-9个月的费用(即使采用一年预留费率)。由于硬件通常至少能用三年,往往超过五年,因此前九个月即可实现成本转正。部分硬件供应商还提供基础设施的操作性定价模式,若现金流紧张可避免前期支付。“Sarin解释道。
按需优先
对所有企业(无论是初创还是大型企业)而言,在架构或重构AI基础设施时取得成功的关键,在于根据具体工作负载采取行动。
如果不确定不同AI工作负载的需求,可以从云入手,通过为每个资源标注负责团队来密切跟踪相关成本。将这些成本报告分享给所有经理,深入分析他们使用资源的状况及影响。这些数据将明确方向,帮助提高效率。
也就是说,记住这并非要完全抛弃云——而是优化其使用以实现效率最大化。
“云仍非常适合实验和突发性训练。但如果推理是核心工作负载,就应摆脱租赁模式。混合方案不仅更经济…也更智能。“Khoury补充道,“将云视为原型环境而非永久家园。仔细核算成本。与工程师沟通。云服务永远不会告诉你何时用错了工具。但AWS账单会。“
最新发布:VB Transform 2025新增50张门票
2025年6月24-25日,加入旧金山顶级领袖行列,解决真实AI挑战,分享有效经验,塑造未来趋势。席位有限,速速报名。
了解更多### 你需要的AI洞察领导力
提交
感谢订阅。查看更多VB新闻通讯请点击此处。
发生错误。