AI 驱动企业 IT 运维迈向预测性与智能化阶段
![]() |
IBM 大中华区技术服务部总经理潘军
北京2026年4月10日 美通社 -- AI 正快速融入企业关键业务领域,但支撑其落地运行的 IT 体系尚未完全做好准备。IBM 调研数据显示,77%的受访高管希望加快 AI 应用落地节奏,而仅有25%认为现有 IT 基础设施能够支撑 AI 的规模化落地。
这一“就绪度缺口”表明,AI 带来的变革并非单一技术升级,而是对企业整体 IT体系的系统性重构。在 IBM 技术服务部看来,AI 正在融入企业运营模型,推动 IT 运维从传统后端支持职能,向支撑业务创新的关键能力演进。
运维模式重构:从响应式脚本进化为智能体驱动的运维
长期以来,企业 IT 运维以“故障响应”为核心。随着企业 IT 系统复杂度持续攀升,运维模式正从传统自动化脚本向“自主智能体 AI(Agentic AI)”演进。
这一转变的核心在于运维逻辑的升级:基于 IBM watsonx 平台,AI 不再仅执行预设规则,而是具备一定的自主推理能力,能够拆解业务目标并规划端到端运维任务的执行路径。通过多智能体协同,企业运维体系可实现从状态感知到决策执行的闭环管理。在部分场景下,系统可自主完成根因分析并实现故障自愈,平均修复时间可缩短最高 80%。
目前,基于 IBM TLS Support Insights 平台,公司已在全球为超过 3000 家客户管理超过 400 万个 IT 资产。在 IBM 相关实践中,91%的 Call Home 设备告警请求已实现自动化响应和处置,从而缓解运维压力并提升系统稳定性。
技术底座演进:应对 AI 规模化基础设施约束
AI 规模化落地对基础设施提出系统性挑战,其算力、运力与存力的协同表现,以及安全与混合云架构设计,直接影响基础设施对业务目标的支撑能力。
作为支撑算力集群效能的关键基础设施,IDC 报告指出,在生成式 AI 训练场景中,网络投入已占基础设施总成本的约 44%。在运力层面,AI 工作负载高度依赖海量“东西向流量”以及 GPU 间稳定的低延迟通信,训练、推理、微调等核心场景对带宽需求呈指数级增长,网络接口正从 400G、800G 向更高速率演进。以千卡级 GPU 集群为例,计算网络与管理网络的叠加导致单个集群的线路规模激增(高达数千条),迫使布线方式从传统直接跳线向更易于维护的结构化布线转型。
在存力层面,大模型应用对数据吞吐、访问延迟与带宽稳定性提出了更高要求。为支撑海量运维数据的实时处理与模型分析,企业正在探索存算分离与存算协同相结合的架构模式。在此过程中,NVMe over Fabric 等高速存储网络技术,可在一定程度上提升远程数据访问效率。在实际落地中,仍需结合本地高速存储与数据分层策略,以降低对网络路径的依赖。整体来看,面向 AI 负载的存储体系正呈现出热数据全闪化、分层存储与高带宽互联协同演进的趋势,从而缓解“算力等待数据”的问题,支撑 AI 运维场景的高效运行。
此外,在算力效能层面,面对能耗压力,企业需要通过 AI 驱动的容量规划与动态资源调度,精细化调节 NPUGPU 服务器功耗并优化负载分布。在特定优化场景中,资源利用率可由约 65%提升至约 89%,在满足业务峰值需求的同时提升整体算力效率。
在电力方面,智能风控、智能客服等大规模 AI 应用落地,对算力需求持续攀升,但传统数据中心在供电密度与部署周期上难以适配 AI 发展节奏。高性能 GPU 集群,推动单机柜功率从传统的 510 千瓦快速提升至 30 千瓦以上,甚至在高密度部署场景中达到更高水平,使得大规模部署面临供电与散热改造的现实约束。同时,能耗成本持续上升,叠加电力资源与 PUE 优化压力,进一步加剧数据中心的运营负担。
人机协同:以业务洞察引导 AI 增强,而非替代
在转型过程中,IBM 强调 AI 的核心价值在于增强专业能力,而非简单替代人力。AI 擅长处理海量数据与重复性任务,而人类专家的核心价值在于对业务场景的理解与决策能力。
调研显示,64%的 CEO 认为,AI 的成功更依赖人的采纳,而非技术本身,这反映出组织与流程因素在 AI 落地过程中的关键作用。在实际落地中,这通常体现为将 AI 能力嵌入一线工作流程。例如,在 IBM 内部“零号客户(Client Zero)”实践中,通过坐席助手(Agent Assist)提供实时建议,初级工程师可借助 AI 完成专家级任务,在缓解技能短缺的同时,将问题解决时间缩短约32%。
这一协作模式的关键在于“释放与重塑”:AI 减少重复性劳动,使运维人员从“救火式”工作中转向更具业务价值的领域。企业转型效果在很大程度上取决于员工技能升级与人机协同能力的提升。
以全生命周期方法构建“AI 就绪”的 IT 体系
企业需从局部单点优化转向体系化的“集成数据中心(Integrated Data Center)”建设。这不仅是技术堆栈的升级,更是基于“AI 优先(AI-First)”理念对 IT 体系的整体重塑,覆盖基础设施规划设计、部署实施、运维优化以及汰新下线的全生命周期管理。
在基础设施层面,企业可通过 AI 驱动的容量规划,精准匹配算力、网络和存储需求,从而降低资源浪费和总体拥有成本。在运行阶段,AI 驱动的预防性维护可在部分场景下提前约 7 至 24 小时预测硬件瓶颈或潜在故障,实现从事后响应向事前预防的转变。在安全与合规层面,推进“安全左移”策略,在规划初期即引入自动化治理机制。
IBM Support Insights(ISI)可对全球超过 400 万个资产及 150 万个活跃漏洞进行实时监测,使运维视野从单一可用性扩展至全生命周期的合规与安全管理,从而在受控环境下充分释放 AI 算力价值。
运维能力成为企业长期竞争力的重要组成部分
总体来看,AI 正在推动企业 IT 体系持续演进。运维能力不再只是保障系统运行的支持职能,而正逐步成为企业数字化能力的重要组成部分。数据中心运维要求对基础设施故障进行快速发现与快速解决,避免引起大规模应用系统异常。
构建“1-5-10”安全可控智能闭环,面对 AI 负载带来的系统复杂性,运维体系正致力于实现“1 分钟感知异常、5 分钟定位根因、10 分钟闭环修复”的目标。通过 AI 智能体与标准化协议(如 MCP 等)实时感知系统状态,系统能够利用上下文推理迅速收敛根因;随后调用预设的“授权动作库”(Skill),在安全权限内执行自主修复。这一从“分钟级感知”到“确定性自愈”的跨越,正推动 IT 运维从传统支持职能向企业数字化核心竞争力加速演进。
在这一过程中,IBM 技术服务部作为全生命周期合作伙伴,致力于将 AI 能力与业务洞察结合,帮助客户构建具备故障自愈、资源优化与成本可控能力的智能运维体系,将 IT 资产转化为可持续的竞争优势。未来企业 IT 的关键能力,不仅在于系统的稳定运行,更在于使系统具备被 AI 理解、调度与持续优化的能力。
参考信息:
https:www.ibm.comthinktopicsai-for-it-support
https:www.ibm.comnewproduct-blogtechnology-lifecycle-services-envisioning-the-next-generation-of-support-with-ai
https:www.ibm.comthinkinsights3-reasons-why-the-right-infrastructure-support-is-essential-for-ai
https:www.ibm.comcn-zhnewproduct-blognew-idc-report-how-ai-is-reshaping-enterprise-networks
https:www.ciscolive.comcdamrciscoliveemeadocs2025pdfPARAI-1323.pdf
媒体联络人
李波
libole@cn.ibm.com
IBM中国


