Новости

Сбои в дата-центрах: редкие, но разрушительные — новый отчет Uptime Institute

Свежий доклад Uptime Institute демонстрирует, что за последние пять лет устойчивость центров обработки данных к сбоям заметно повысилась. Тем не менее, инциденты в дата-центрах всё ещё случаются, а их устранение обходится дороже и занимает в среднем больше времени, сообщает The Register.

Как указано в отчёте, половина респондентов среди операторов ЦОД за последние три года столкнулись с серьёзными или масштабными сбоями. Это самый низкий показатель начиная с 2020 года, что свидетельствует о росте надёжности инфраструктуры. Однако операторам становится всё труднее улучшать согласованный в SLA уровень надёжности — хотя отказы происходят реже, для дальнейшего прогресса требуются всё более значительные усилия.

Повышение времени безотказной работы частично нивелируется усложнением систем и условий эксплуатации, связанным с массовым внедрением ресурсоёмкой инфраструктуры для обучения и инференса ИИ. Более высокая плотность размещения оборудования в стойках, колебания нагрузок и прочие факторы могут увеличить риск каскадных отказов. Кроме того, дефицит генераторов, распределительных устройств, трансформаторов, систем охлаждения и прочего вынуждает операторов ЦОД иногда применять бывшее в употреблении или непроверенное оборудование. Предполагается, что именно это могло стать причиной сбоев в ряде дата-центров.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Главной причиной критических неполадок по-прежнему остаются сбои электроснабжения, хотя здесь наметился некоторый прогресс — если в 2024 году на проблемы с электричеством приходилось 54 % самых серьёзных отключений, то в 2025 году этот показатель снизился до 45 %. Впрочем, ситуация может измениться, так как местные электросети испытывают всё большую нагрузку из-за ввода в строй новых ЦОД. Хотя сбои энергосетей не станут основной причиной отключений в будущем, они повлияют на доступность локальной генерации — при авариях в сети дата-центры не всегда успевают переключиться на дизель-генераторы и другие резервные источники питания.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Специалисты Uptime обращают внимание не исключительно на перегрузки в электрических сетях. Как отмечают аналитики, значительная часть отказов в центрах обработки данных обусловлена повреждениями оптоволоконных линий и иными техническими неисправностями. По мере того как архитектура ЦОД становится всё более распределённой, инциденты за пределами самих дата-центров приобретают всё большее значение. Даже при безупречной работе самого ЦОД, ошибочная настройка сетевого оборудования, к примеру, способна вызвать перебои в обслуживании клиентов. Технологии SDN и автоматическое перенаправление трафика помогают минимизировать подобные риски, и всё больше организаций вообще не фиксируют простоев. Примерно 20 % респондентов за последние три года не отмечали сбоев в IT-сервисах, что является заметным улучшением по сравнению с предыдущим годом.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Обеспечение отказоустойчивости на программном уровне позволяет смягчать последствия локальных инцидентов, включая разрывы оптоволоконных кабелей, путём перераспределения рабочих задач между несколькими связанными площадками. Однако сами по себе такие системы достаточно сложны. Более того, на примере атак дронов на ЦОД в ОАЭ и Бахрейне видно, что распределение нагрузок оказывается малоэффективным, если сбой затрагивает сразу несколько площадок одновременно.

Несмотря на то что в 2025 году Uptime Institute зафиксировала меньше сбоев, чем годом ранее, в отчёте предполагается, что продолжительность сбоев в целом может увеличиваться. 55 % инцидентов, информация о которых стала публичной, устраняются в течение 12 часов, однако доля случаев, длящихся более 48 часов, растёт уже второй год подряд. При этом многие из них связаны с теми же повреждениями волоконно-оптических линий связи. По данным Uptime, за отчётный период такие инциденты происходили более чем вдвое чаще, чем раньше.

При этом с увеличением длительности простоев растут и финансовые потери от инцидентов, особенно это касается инфраструктуры для ИИ. Согласно информации Uptime, сейчас 20 % простоев обходятся дороже $1 млн. Ожидается, что в ближайшие годы этот показатель будет только расти.

Источники:

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории
Популярные новости