Согласно свежему исследованию Uptime Institute, за последние пять лет устойчивость дата-центров к отказам заметно повысилась. Однако инциденты в работе ЦОД всё ещё случаются, а их ликвидация становится дороже и в среднем занимает больше времени, сообщает The Register.
Как указано в докладе, половина респондентов из числа операторов ЦОД за последние три года сталкивались с серьёзными или крупными сбоями. Это самый низкий показатель с 2020 года, что свидетельствует о росте надёжности инфраструктуры. При этом операторам становится всё труднее улучшать согласованный в SLA уровень надёжности — хотя отказы происходят реже, дальнейшее повышение показателей требует всё больше ресурсов.
Усилия по увеличению времени безотказной работы частично нивелируются усложнением систем и условий эксплуатации, вызванным повсеместным внедрением ресурсоёмкой инфраструктуры для обучения и инференса ИИ. Более высокая плотность размещения оборудования в стойках, колебания нагрузок и другие факторы могут повысить риск каскадных отказов. Кроме того, дефицит генераторов, распределительных устройств, трансформаторов, систем охлаждения и прочего вынуждает операторов ЦОД иногда применять бывшее в употреблении или непроверенное оборудование. Предполагается, что именно это могло стать причиной сбоев в некоторых дата-центрах.
Источник изображения: Uptime Institute
Главной причиной критических неполадок называют перебои в электроснабжении, хотя здесь наметился определённый прогресс — если в 2024 году на проблемы с электричеством приходилось 54 % самых серьёзных отключений, то в 2025 году этот показатель снизился до 45 %. Однако ситуация может измениться, так как местные электросети испытывают всё большую нагрузку из-за ввода в строй новых ЦОД. Хотя сбои энергосетей не станут основной причиной отключений в будущем, они повлияют на доступность локальной генерации — при авариях в сети ЦОД не всегда успевают переключиться на ДГУ и другие резервные источники питания.
Источник изображения: Uptime Institute
Эксперты Uptime обращают внимание не только на перегрузки в электрических сетях. Как отмечают специалисты, значительная часть отказов в центрах обработки данных вызвана повреждениями оптоволоконных линий и другими техническими проблемами. По мере того как инфраструктура ЦОД становится всё более распределённой, инциденты за пределами дата-центров приобретают всё большее значение. Даже при корректной работе самого ЦОД ошибочная настройка сети, к примеру, способна вызвать перебои в предоставлении услуг клиентам. Технологии SDN и автоматическое перенаправление трафика помогают минимизировать такие риски, и всё больше компаний вообще не сталкиваются с простоями. Около 20 % респондентов за последние три года не фиксировали сбоев в IT-сервисах, что является заметным улучшением по сравнению с предыдущим годом.
Источник изображения: Uptime Institute
Обеспечение отказоустойчивости на программном уровне помогает смягчать последствия локальных инцидентов, включая разрывы оптоволоконных кабелей, за счёт перераспределения рабочих нагрузок между несколькими взаимосвязанными площадками. Однако такие системы сами по себе довольно сложны. Более того, на примере атак дронов на ЦОД в ОАЭ и Бахрейне видно, что распределение нагрузок оказывается малоэффективным, если сбой затрагивает сразу несколько площадок.
Хотя в 2025 году Uptime Institute зафиксировала меньше сбоев, чем годом ранее, в отчёте предполагается, что продолжительность этих сбоев в целом может увеличиваться. 55 % инцидентов, информация о которых была обнародована, устраняются в течение 12 часов, однако доля случаев, длящихся более 48 часов, растёт уже второй год подряд. При этом многие из них связаны с теми же повреждениями волоконно-оптических линий связи. По данным Uptime, за отчётный период такие инциденты происходили более чем вдвое чаще, чем раньше.
Кроме того, с увеличением длительности простоев растут и финансовые потери от инцидентов, особенно в случае с инфраструктурой для ИИ. Согласно информации Uptime, сейчас 20 % простоев обходятся дороже $1 млн. Ожидается, что в ближайшие годы этот показатель будет только расти.
Источники: