源信息经过deepseek翻译并总结
摘要:
企业IT团队需战略规划AI计算资源,避免因基础设施不足阻碍生产级部署。2025年AI硬件支出预计增长97%,2028年达2000亿美元。企业需根据训练/推理需求选择扩展策略,协同数据、软件、网络规划。德勤建议将AI视为操作系统,采用”流体架构”动态分配资源以降低成本30%-40%。安永强调模块化设计实现技术中立。扩展AI时需平衡投资,避免性能瓶颈或资源闲置。专家主张精准配置而非盲目追求算力,按规模分层部署处理器和加速器。多数企业选择云端AI解决方案,但需防范多云策略的兼容性与成本风险。部分企业通过混合架构或专业平台优化成本效率。未来需平衡边缘、本地与云环境,谨慎规划基础设施选项。
更智能的扩展:企业IT团队如何为AI合理配置计算资源 | VentureBeat
更智能的扩展:企业IT团队如何为AI合理配置计算资源
作者:Joe Maglitta
2025年6月27日 下午1:00
本文是VentureBeat专题”AI的真实成本:规模化性能、效率与投资回报率”的一部分。阅读更多相关内容。
AI试点项目很少从基础设施和硬件的深入讨论开始。但经验丰富的扩展者警告说,如果没有战略性地持续关注这一关键的企业级基础,部署高价值的生产负载将不会有好结果。
好消息是:企业对基础设施在推动收入增长、成本降低和效率提升的生成式、代理式及其他智能应用的启用和扩展中所起的关键作用有了越来越多的认识。
根据IDC的数据,2025年企业在AI部署上的计算和存储硬件基础设施支出同比增长了97%。研究人员预测,该领域的全球投资将从现在的1500亿美元激增至2028年的2000亿美元。
但畅销AI书籍作者、The Hackett Group生成式AI咨询业务负责人John Thompson在接受VentureBeat采访时表示,竞争优势”不会属于那些花钱最多的人,而是属于那些最智能地扩展的人”。
忽视基础设施和硬件将自食其果
其他专家也同意,认为企业如果不仔细规划并合理配置由处理器和加速器以及升级的电源和冷却系统组成的精密协同网络,几乎不可能扩展和工业化AI工作负载。这些专为特定目的构建的硬件组件提供了处理从边缘到本地再到云端的空前数据量、流动和速度所需的速度、可用性、灵活性和可扩展性。
来源:VentureBeat
一项又一项研究将基础设施相关问题,如性能瓶颈、硬件不匹配和遗留系统集成不良,与数据问题一起列为试点项目的主要杀手。代理式AI的爆炸性兴趣和投资进一步提高了技术、竞争和财务风险。
在科技公司中,作为整个行业的风向标,近50%的公司正在进行代理式AI项目;其余的将在24个月内启动项目。它们将当前AI预算的一半或更多分配给代理式AI,许多公司计划今年进一步增加预算。(这是好事,因为这些复杂的自主系统需要昂贵且稀缺的GPU和TPU来跨多个平台独立实时运行。)
通过试点项目的经验,技术和业务领导者现在明白,AI工作负载的高要求——高速处理、网络、存储、编排和巨大的电力需求——与他们以前大规模构建的任何东西都不同。
对许多企业来说,紧迫的问题是:“我们准备好做这个了吗?“诚实的答案是:如果没有仔细的持续分析、规划以及可能的非微不足道的IT升级,就无法做到。
他们已攀登AI高峰——倾听经验
像雪花和孩子一样,我们被提醒AI项目既相似又独特。不同AI功能和类型(训练与推理、机器学习与强化学习)之间的需求差异巨大。同样,业务目标、预算、技术债务、供应商锁定以及可用技能和能力也存在广泛差异。
可以预见的是,没有单一的”最佳”方法。根据具体情况,您将向上或水平扩展AI基础设施(为增加的负载提供更多能力),或向外或垂直扩展(升级现有硬件),或混合扩展(两者兼有)。
尽管如此,这些早期的思维模式、原则、建议、实践、现实案例和节省成本的技巧可以帮助您的努力朝着正确的方向前进。
这是一个庞大的挑战,涉及许多层面:数据、软件、网络、安全和存储。我们将保持高层次的重点,并包含有助于深入探讨的相关链接,例如上述内容。### 重塑AI基础设施的现代视野
最关键的思维转变在于建立对AI的新认知——不再将其视为独立应用,而是作为嵌入业务流程、工作流和工具的基础能力平台。
要实现这一目标,基础设施必须平衡两大角色:既要提供稳定、安全且合规的企业级底座,又要能快速可靠地部署专用AI工作负载与应用,通常还需配备针对自然语言处理(NLP)、强化学习等特定领域优化的定制硬件。
德勤首席创新官黛布·戈尔登指出,这本质上是一次角色反转:“AI应被视为操作系统,基础设施需要主动适配它,而非相反。“她进一步阐释:“未来不仅关乎精密模型与算法。硬件不再是被动角色。从现在起,基础设施的核心使命是协调智能硬件,使之成为AI的操作系统。”
要实现规模化且高效的运作,戈尔登提出了”流体架构”概念——这种动态分配机制能在从单个芯片到完整工作负载的各层级实时适配。其效益显著:她的团队发现该方法可降低成本30%-40%,延迟减少15%-20%。“如果AI不能随工作负载呼吸,它就会窒息。”
这是个严峻挑战。此类AI基础设施必须满足多层架构、云原生、开放、实时、动态、灵活及模块化等特性。它需要智能协调边缘移动设备、本地数据中心、AI PC工作站、混合云及公有云环境。
这些看似术语堆砌的要求,实则标志着企业IT基础设施为AI重构优化的新纪元。核心要素仍具延续性:混合环境、快速增长的垂直化云服务生态、框架与平台。
安永美洲科技增长主管肯·英格伦强调:“拥抱架构模块化是长期成功的关键。整合不同工具、智能体、解决方案和平台的能力将决定成败。模块化为框架和架构赋予灵活性。“通过解耦系统组件,企业可在技术中立、即插即用模型增强、持续创新与扩展性等方面获得面向未来的能力。### 扩展AI规模的基础设施投资需在谨慎与性能间寻求平衡
希望扩大企业AI应用的技术团队正面临一项升级版的”金发姑娘难题”:如何在现代化基础设施和硬件领域找到”恰到好处”的投资力度,以应对分布式、泛在化AI快速迭代的需求。
投资不足或固守现有算力?你将面临导致项目(及职业生涯)全面崩盘的关键性能瓶颈与平庸的商业回报。
过度投资于光鲜的新AI基础设施?迎接你的将是巨额资本支出、持续运营成本、闲置资源以及无人需要的操作复杂性。
经验丰富的技术专家一致认为,相比其他IT投入,单纯堆砌算力绝非制胜之道。然而这种诱惑始终存在,即便并非完全有意为之。
“那些对AI需求极低的工作任务,往往也被分配到昂贵的GPU或TPU基础设施上。“Mine Bayrak Ozmen表示。这位转型专家曾在财富500强企业主导AI部署,并为全球顶级咨询公司建立AI卓越中心。
现任AI平台公司Riernio联合创始人的Ozmen指出一个悖论:“这仅仅是因为以AI为核心的设计理念已颠覆了传统组织原则。“她补充道,硬件厂商提供的深度折扣往往会掩盖这类部署长期存在的成本效率问题。### 以精准规划和分布式部署实现AI基础设施的合理配置,而非盲目追求算力
那么,应依据什么制定战略和战术决策?专家们一致认为,有一种悖论式的错误逻辑必须摒弃:既然AI基础设施需要超高性能,那么处理器和硬件越强大越好。
“AI规模化绝非依赖蛮力计算,“曾主导多个全球大型AI项目的Hackett集团Thompson强调。他于今年二月出版的著作《通往AGI之路:通用人工智能的过去、现在与未来》中指出,关键在于”在正确的时间、正确的位置部署合适的硬件,而非处处追求最强配置”。
Ozmen认为,成功实现规模化的企业都采用”精准配置支撑精准执行”的策略。这意味着需要”优化工作负载分布(推理与训练)、管理上下文局部性、通过策略驱动的编排减少冗余、提升可观测性,从而推动持续增长”。
有时分析和决策可以像餐巾纸背面涂鸦般简单。“为200名员工服务的生成式AI系统在单台服务器上就能流畅运行,“Thompson举例道。但复杂项目则截然不同。
例如面向全球数十万用户的企业级AI核心系统,需要云原生故障转移和强力扩展能力。Thompson指出,这类场景必须通过严谨的规划、分布式部署和扩展方案来实现基础设施合理配置,任何捷径都是鲁莽的。
令人意外的是,企业常会跳过这些基础IT规划。许多公司为抢占竞争优势,往往通过向关键AI项目投入超额基础设施预算来加速进程。
哈克特集团最新研究对AI规模化基础设施的真正需求提出质疑,为开展严格的前期分析提供了更多依据。
Thompson的实战经验颇具启发性。在构建30万用户的AI客服系统时,其团队发现”全球覆盖远比单一节点的超大容量更重要”。因此基础设施分布于美、欧、亚太地区,用户请求通过智能路由全球调度。
实用建议?“划定边界——究竟是30万用户还是200人?规模决定架构,“他总结道。
为特定场景在合适位置部署匹配硬件
现代分层式AI基础设施策略依赖于多功能处理器和加速器,它们可在全流程中针对不同角色优化。关于处理器选型的深度解析,请参阅突破GPU局限。
来源:VentureBeat### 为AI扩展构建基础设施:云服务是多数企业的选择
您已清晰了解AI扩展基础设施的能力与定位,明确了投资的最佳范围和适用场景。接下来就是采购环节。
正如VentureBeat上期特刊所述,对大多数企业而言,最有效的策略仍是依托云端基础设施和现成设备来扩展AI生产。
大型机构调研显示,多数企业已从定制化本地数据中心转向公共云平台和预制AI解决方案。对许多企业来说,这是现代化进程的延续,既避免了高昂的前期资本支出与人才争夺,又能为快速变化的需求提供关键灵活性。
Gartner预测,未来三年内,50%的云端计算资源将用于AI工作负载(目前不足10%)。部分企业也正通过加速计算、高速内存和高带宽网络升级本地数据中心。
好消息是:亚马逊、AWS、微软、谷歌及众多专业服务商持续投入巨资,打造端到端的AI优化方案,涵盖全栈基础设施、平台、GPU云服务、高性能计算、存储(超大规模供应商及戴尔、HPE、日立Vantara等)、框架及其他托管服务。
西北AI咨询首席顾问Wyatt Mayham表示,尤其对于希望快速试水的企业,云服务是省心之选。例如,已使用微软产品的企业可无缝衔接”Azure OpenAI,几乎无需额外架构就能安全合规地运行”,他解释道,“既避开了定制LLM基础设施的复杂性,又能保障企业所需的安全与控制权,堪称速赢案例。”
然而,技术决策者面临的选项盛宴也有另一面:选择合适的服务可能令人望而生畏——尤其当更多企业采用跨供应商的多云策略时。兼容性、统一安全标准、责任归属、服务等级和本地资源需求等问题可能迅速纠缠成复杂网络,拖慢开发部署进度。
为简化流程,企业可能选择坚守一两家主要供应商。但与AI前的云托管时代一样,供应商锁定的风险始终存在(尽管开放标准提供了选择可能)。更令人担忧的是历史教训:许多企业在迁移基础设施至付费云服务后,惊恐地发现成本远超预期。
这解释了为何专家强调,在采购前必须清晰了解边缘计算、本地部署、云端应用等各场景所需的性能与容量——这是IT基础中的关键。
重新审视本地部署
传统观点认为,自建基础设施仅是资金雄厚企业或强监管行业的特权。但在AI新篇章中,关键内部组件正被重新评估,通常作为混合架构优化策略的一部分。
以提供AI文档扫描和身份验证服务的Microblink为例。该公司最初使用谷歌云平台(GCP)支持高吞吐量ML工作负载,但很快遭遇成本与扩展性问题。“GPU供应受限、不可预测且昂贵,“平台团队工程经理Filip Suste表示。为此,团队战略性地将计算负载迁移至本地,并采用MinIo的高性能云原生对象存储系统。
这一混合架构转型使Microblink相关成本降低62%,闲置容量减少,训练效率提升,同时还重获对AI基础设施的控制权,强化了客户安全。
考虑专业AI平台
日本数控机床制造商Makino在40个国家运营时遭遇经典技能断层问题:新手工程师需30小时完成的维修,老手仅需8小时。为弥补差距并提升服务,管理层决定将20年维护数据转化为即时可用的专家系统。最终,他们选择将现有服务管理系统与Aquant的专业AI平台集成。
客户支持总监Ken Creech解释,这一轻量级技术路径收效显著:资源集中于术语标准化和流程开发,而非反复评估不同基础设施方案。结果远程问题解决率提升15%,处理时间缩短,客户还能自助访问系统。“现在工程师用自然语言提问,AI迅速定位答案,这体验令人惊叹。”
采用成本规避技巧
美国大型连锁超市Albertsons的科技团队通过简单有效的策略优化AI基础设施,避免新增硬件投入。数据分析与技术主管Chandrakanth Puligundla举例说,“重力映射”可追踪数据存储位置及流动路径(边缘设备、内部系统或多云环境),既能降低出口成本与延迟,又能优化计算资源分配决策。
此外,专用AI工具在语言处理或图像识别上占用更少资源,其性能与经济性往往优于昂贵服务器或通用计算机的升级。另一技巧是追踪”每推理/训练小时耗电量”,通过能效指标优先考虑可持续性能——这对功耗激增的AI模型与硬件至关重要。Puligundla总结道:“这种有意识的准备能显著提升效率。”
书写您的终章
AI试点项目的成功将数百万企业推向新阶段:将具有高商业价值的生成式AI、LLM、智能体等投入广泛生产。最新AI篇章承诺,那些在边缘计算、本地系统与云环境间平衡性能、成本、灵活性与扩展性的企业将收获丰厚回报。
未来数月,随着行业资金持续涌入超大规模数据中心、边缘芯片(AMD、高通、华为)、全栈云AI基础设施(Canonical、Guru)、情境感知内存、即插即用安全本地设备Lemony等领域,扩展选项将进一步丰富。
IT与业务领导者如何规划选择基础设施,将决定企业成为故事中的英雄,还是深陷试点泥潭的困局。### 你所需的AI洞察力
提交
感谢订阅。查看更多VB新闻通讯请点击此处。
发生错误。