В опубликованном независимом отчёте о сентябрьском сбое, связанном с обновлением файрвола у оператора связи Optus, который привёл к гибели двух человек (ранее фигурировали данные о трёх погибших), не сумевших вызвать экстренные службы, указано, что технический персонал совершил как минимум 10 серьёзных промахов, пишет The Register.
В Австралии номер 000 предназначен для вызова неотложной помощи, и местные операторы обязаны гарантировать маршрутизацию таких вызовов в службы спасения. 18 сентября 2025 года провайдер Optus на протяжении 14 часов подряд не мог обеспечить эту критически важную связь. Более того, компания даже не знала о возникшей проблеме — о ней сообщили сами абоненты, обратившиеся в службу поддержки. Из-за этого инцидента 455 звонков на номер 000 не были обработаны, и двое позвонивших скончались.
Недавно Optus обнародовала результаты расследования, проведённого доктором Керри Шотт (Kerry Schott), где детально разбираются причины происшествия. Выяснилось, что инженеры допустили целую цепочку ошибок и проигнорировали ранние предупреждения о потенциальных рисках. Некоторые специалисты пропускали совещания, на которых обсуждались возможные последствия планируемых работ. Сами работы велись в излишней спешке, а проверить отдельные их результаты оказалось невозможно.
Источник изображения: Icons8 Team/unsplash.com
Изначально Optus планировала выполнить 18 обновлений файрволов, но успешно завершить удалось лишь 15. Для 16-го обновления компания предоставила своему подрядчику, фирме Nokia, неверные инструкции. Сотрудники Optus инициировали изменения конфигурации, которые привели к изоляции сетевого оборудования и блокировке шлюза, сделав невозможным перенаправление трафика. Подобная процедура не использовалась компанией в ходе шести предыдущих обновлений файрволов.
В Nokia, однако, по неизвестным причинам применили устаревший регламент (Method of Procedure) 2022 года, который не соответствовал требованиям текущих операций. Кроме того, специалисты Nokia ошибочно предположили, что выполняемые действия не затронут передачу данных в сети. Со своей стороны, Optus присвоила операции статус срочной, что по сути исключило проведение плановых тестов. После внедрения обновления как Nokia, так и Optus зафиксировали признаки неполадок в системе, однако обе компании проигнорировали эти сигналы.
В 02:40 по местному времени обновление было завершено, и команды провели заключительную проверку. Она показала рост процента неудачных вызовов, хотя прогнозировалось его снижение, однако сама аномалия так и не была идентифицирована. В довершение всего, Optus ошибочно использовала для анализа колебаний звонков обобщённые общенациональные данные, что не позволило выявить локальные перебои, вызванные неудачным обновлением.
Источник изображения: Can Ahtam/unsplash.com
Как отмечают эксперты, к сбою привели слабое управление и низкое качество работы со стороны Optus и Nokia — были нарушены процедуры, выбраны неверные методики, проведено недостаточно проверок, проигнорированы контрольные меры, а на предупреждающие сигналы почти не обращали внимания. Сотрудники Optus проявили излишнюю нерешительность, вовремя не привлекая более опытных коллег, а главным приоритетом стала скорость выполнения задачи, а не её точность. Наиболее жёсткой критике подверглись команды, ответственные за проблемное обновление. Подчёркивается, что подобный инцидент при плановом обновлении межсетевого экрана недопустим — необходим гораздо более строгий надзор за деятельностью персонала и работой Nokia.
Но на этом проблемы не заканчиваются. Недавно обнаружилось, что в сетях операторов TPG, Optus и Telstra невозможно дозвониться до службы 000 с некоторых смартфонов Samsung, работающих на устаревшем программном обеспечении, что уже стало причиной как минимум . Отмечается, что австралийские телеком-операторы пытаются перенаправлять трафик при сбоях, но это сложная задача, которую дополнительно осложняет разное поведение различных моделей смартфонов при возникновении неполадок. Optus рекомендует клиентам проверять возможность соединения с 000, а также ведёт перечень «проблемных» устройств. Тем не менее, трудности могут возникнуть у владельцев «серых» гаджетов, приобретённых через интернет или за рубежом.
Сбои в работе цифровых систем случаются регулярно, и их последствия не ограничиваются только финансовыми убытками или техническими неполадками. Например, в июле 2024 года масштабный инцидент, вызванный обновлением CrowdStrike, затронул около 8,5 миллионов компьютеров под управлением Windows. Спустя год стало известно, что он повлиял как минимум на 750 медицинских учреждений в США, несмотря на то, что в CrowdStrike резко оспорили эти данные.
Источник информации: