Аналитика

Деньги вместо серверов: как мониторинг превращает ИТ-данные в прибыль

Илья Захаров («Группа Астра»): Сегодняшние системы наблюдения должны контролировать финансовые потоки, а не состояние серверов

В беседе с CNews Илья Захаров, руководитель департамента по созданию инструментов мониторинга в «Группе Астра», описывает, как платформы наблюдаемости (Observability) перестают быть просто ИТ-инструментом и становятся стратегическим ресурсом для компаний. Специалист поясняет, почему мониторинг каждой бизнес-операции в режиме реального времени оказывает прямое воздействие на экономические показатели организации.

CNews: Для многих организаций ИТ-мониторинг до сих пор ограничивается контролем за техническими параметрами оборудования. Как, на ваш взгляд, современные решения в области наблюдаемости (Observability) преодолевают эти границы и становятся средством для роста доходов?

Илья Захаров: Часто считается, что мониторинг — это узкопрофильная сфера, которая нужна лишь системным администраторам для наблюдения за работой серверов. Однако сегодняшняя глобальная ИТ-среда изменилась: повсеместно внедряются no-code-платформы и serverless-архитектуры, где инфраструктурой полностью управляет облачный поставщик. Клиенты работают на уровне сервисов, а не «железа». Поэтому актуальные системы мониторинга концентрируются на отслеживании эффективности бизнес-процессов: помещении товара в корзину, оплате покупки, оформлении кредита, переводе денег — то есть всех тех операций, которые пользователи ежедневно выполняют через свои смартфоны и другие устройства.

Следовательно, системы наблюдаемости должны соответствовать обновлённым запросам: охватывать сбор информации не только со стороны аппаратного обеспечения (SNMP, IPMI), но и, что особенно важно, со стороны бизнес-операций. Требуется контролировать эффективность каждой транзакции: её длительность, долю ошибок за заданный интервал времени, путь выполнения. Идея Observability сформировалась на базе трассировки (tracing), дающей возможность проследить запрос и весьма схожей с термином «бизнес-операция». В ряде случаев операция может включать несколько трасс, но это уже техническая специфика.
Главное достоинство — как только вы приступаете к отслеживанию каждой операции, вы обретаете измеримость и управление. Вы наблюдаете, какое число клиентов воспользовалось сервисом (к примеру, переводом денег), и мгновенно можете обнаружить неуспешные попытки, повлёкшие упущенную выгоду. Это даёт возможность напрямую оценивать влияние технологических неполадок на бизнес, что достижимо лишь в современном цифровом пространстве благодаря инструментам наблюдаемости.

CNews: Илья, почему среди всех ИТ-направлений вы остановились именно на мониторинге?

Илья Захаров: Отчасти это вышло благодаря совпадению ряда факторов. Однако, углубившись в эту сферу, я осознал широту перспектив, которые актуальные средства мониторинга открывают для бизнеса. В 2018 году я стал работать с решением AppDynamics, чьим основным нововведением стало объединение контроля бизнес-метрик и ИТ-инфраструктуры. Это чрезвычайно востребовано, поскольку бизнес-модели значительно изменились, и подавляющее число компаний ведут деятельность через цифровые каналы. Соответственно, исправность такого канала напрямую определяет жизнеспособность бизнеса в целом. Если приложение, через которое происходит продажа товаров и услуг, не работает, бизнес-процессы замирают, что ведёт к непосредственным финансовым убыткам. Именно это сформировало мою профессиональную специализацию, и в настоящее время я занимаюсь развитием продукта Астра Мониторинг в ПАО «Группа Астра».

CNews: Технология наблюдаемости базируется на трёх основах: логи, метрики и трассировки. Каким образом совместное применение всех трёх типов данных, в сравнении с выборочным мониторингом, воздействует на бизнес-процессы?

Илья Захаров: На мировом рынке эти три элемента изначально развивались раздельно. Характерный пример — компания Splunk, выстроившая бизнес на обработке логов. Для трассировки можно назвать Dynatrace, а для метрик — Zabbix. Данные решения результативны в своих узких нишах, но мы видим движение к их объединению и выходу на сопредельные рынки — например, Splunk интегрирована в портфель наблюдаемости Cisco совместно с AppDynamics.

Когда информация поступает из разных, не связанных между собой систем, аналитику требуется глубокое понимание предметной области, чтобы сопоставлять и объединять эти данные. Система отслеживания журналов событий может фиксировать сбои в работе сервиса, но как это соотносится с показателями из другой платформы? Влияют ли эти ошибки на важные для бизнеса индикаторы, такие как время рассмотрения заявок на кредит или количество отгруженных товаров? Лишь объединение всех трёх категорий данных позволяет чётко увидеть, как состояние ИТ-систем сказывается на коммерческих итогах.

CNews: Каким образом платформа Observability помогает уменьшить среднее время восстановления (MTTR) и как это отражается на основных финансовых результатах?

Илья Захаров: Важно пояснить, что MTTR (Mean Time to Restore) — это усреднённый показатель времени, необходимого для устранения последствий инцидента за заданный период, допустим, за месяц. Чтобы возобновить нормальную работу, сначала нужно понять, что именно произошло и насколько масштабна проблема. Инструменты наблюдаемости как раз дают точные ответы на эти вопросы.

Прежде всего, на основе трассировок видно, какие именно бизнес-процессы оказались затронуты. Далее, используя метрики и логи, можно оценить общую тяжесть ситуации и выявить сервисы, повлиявшие на выполнение критически важной функции. Это значительно ускоряет поиск первоисточника проблемы для её дальнейшего решения.

Нередко, если причину сбоя не удаётся быстро обнаружить (например, приложение полностью перестаёт отвечать), команды вынуждены идти на перезапуск компонентов, после чего функциональность может вернуться. В сложных ИТ-ландшафтах такой подход иногда помогает, но он не решает основную проблему, а значит, инцидент возникнет снова. Следовательно, второй ключевой момент — это недопущение повторения аналогичных ситуаций.

Третий аспект — формирование единого и достоверного источника информации (single source of truth) для всех вовлечённых специалистов. В расследовании инцидента в компании среднего или крупного масштаба обычно участвует более 10 человек: системные администраторы, эксперты по базам данных, специалисты поддержки приложений, разработчики. Для такой разнородной группы крайне важен общий интерфейс для совместной работы. Иначе каждый будет пользоваться своим набором инструментов, что ведёт к существенным операционным потерям из-за фрагментированной картины происходящего и необходимости постоянного согласования данных — своеобразная вавилонская башня в уменьшенном масштабе.

CNews: Каково ваше мнение о процессах мониторинга в современных организациях? Какую роль в них занимает платформа наблюдаемости?

Илья Захаров: Это существенный вопрос, ведь любой инструмент бесполезен, если им не пользуются. Внедрение систем мониторинга или наблюдаемости — это комплексная работа, требующая как дисциплины, так и специальных знаний. При запуске новых компонентов, будь то оборудование, приложения или обновления, необходимо сразу же предусмотреть контроль за их работой. Наиболее эффективным решением для этой задачи как раз и выступает платформа наблюдаемости.

Следующим шагом является визуализация данных и настройка уведомлений. В «Астра Мониторинг» серьёзное внимание уделено созданию для клиентов интуитивно понятного и централизованного инструментария для отслеживания работоспособности приложений. Это включает в себя единую «карту состояния» всей инфраструктуры, а также возможности для централизованной настройки правил мониторинга.

Помимо этого, необходимо отладить процедуру формирования рабочих групп и установить прозрачные схемы эскалации: клиент самостоятельно решает, какие именно специалисты будут задействованы на платформе для выявления причины сбоя и возобновления нормальной работы.

Наконец, важнейший этап — проведение постфактум-анализа, то есть детального разбора произошедшего инцидента с формулировкой выводов. Если в момент простоя основная цель — максимально оперативное восстановление, то задача такого анализа — сделать выводы и внедрить корректирующие меры, чтобы избежать повторения аналогичных ситуаций в дальнейшем.

CNews: Расскажите, что такое технология единого агента? В чём её практическая ценность для компаний?

Илья Захаров: Единый агент в высокой степени автоматизирует процесс развёртывания компонентов платформы наблюдаемости на приложениях. Он обеспечивает автоматическую настройку сбора метрик, трассировок и журналов на каждом сервере, где установлен. Это позволяет в разы ускорить подключение всего приложения к системе мониторинга. Более того, при любых изменениях в конфигурации агент самостоятельно их обнаруживает и передаёт обновлённую информацию на платформу.

CNews: Каковы для бизнеса основные преимущества целостной Observability-платформы по сравнению с набором отдельных open-source инструментов?

Илья Захаров: Сам факт того, что американские разработчики платформ наблюдаемости, такие как Datadog и Dynatrace, являются публичными компаниями, говорит об успешности их бизнес-модели и о том, что клиенты отдают предпочтение их продуктам, а не комбинациям разрозненных open source-решений.

На первый взгляд, open source-инструменты бесплатны и не требуют лицензионных платежей, однако их реальная стоимость весьма велика: для работы с ними необходимы высококлассные специалисты экстра-уровня, а не инженеры средней квалификации. Для большинства компаний, не относящихся к технологическим гигантам, привлечение таких кадров связано со значительными затратами на фонд оплаты труда. Таким образом, open source обходится дорого с точки зрения совокупной стоимости владения и поддержки. К тому же, если ключевые специалисты уходят, вся построенная система мониторинга может оказаться под угрозой.

Кроме того, основная проблема заключается именно в разобщенности используемых средств. Это подразумевает применение независимых систем для сбора метрик, логов и трассировок. Каждая из них требует собственных инфраструктурных ресурсов, оборудования, хранилищ и вычислительных мощностей, что как минимум утраивает сопутствующие расходы. Если потребуется внедрение элементов искусственного интеллекта, их также придется приобретать и интегрировать отдельно для каждого решения. Каждый опенсорсный продукт нуждается в поддержке, а значит, требует содержания штата квалифицированных сотрудников.
Наконец, крайне важна глубина интеграции. Как уже упоминалось, раздельные инструменты, независимо собирающие метрики, логи и трейсы, не решают итоговую задачу, предлагая лишь частичную видимость. В момент инцидента, когда команды действуют в стрессовых условиях, эта фрагментарность напрямую сказывается на времени его устранения. Следовательно, главное достоинство готовых платформ — обеспечение комплексной наблюдаемости «из коробки», что значительно снижает среднее время восстановления и повышает общую надежность и устойчивость приложений.

CNews: Каким образом внедрение «зонтичного мониторинга» помогает устранить раздробленность данных и какие бизнес-преимущества дает эта технология?

Илья Захаров: Технологии зонтичного мониторинга (umbrella monitoring) появились как ответ на первую волну ИТ-автоматизации, когда поставщики поставляли оборудование со встроенными системами контроля. Заказчики, использовавшие устройства разных вендоров, сталкивались с потребностью отслеживать каждый компонент с помощью отдельного продукта. Для консолидации этой информации был создан дополнительный программный уровень поверх уже существующих систем.

По моему мнению, современная платформа наблюдаемости полностью исключает необходимость в подобных «зонтичных» надстройках. Она должна самостоятельно собирать данные со всех уровней, и только такой метод позволяет говорить о достижении измеримых бизнес-результатов. Продукт «Астра Мониторинг» создан именно по этой концепции. Однако для клиентов, находящихся на переходной стадии и уже вложивших средства в собственные системы мониторинга, мы предлагаем открытые API для загрузки информации в нашу платформу по принципу зонтичного решения.

CNews: Как вы считаете, мониторинг остается инструментом для экспертов или все же наметилась тенденция к его упрощению и доступности?

Илья Захаров: Упрощение процессов мониторинга — это моя личная профессиональная миссия. Я регулярно наблюдаю, как инженеры работают с инструментами прошлого поколения — это чрезвычайно сложные продукты, нуждающиеся в долгой настройке и ручном сопровождении при любых изменениях, что отнимает огромное количество времени.

Тем не менее, многие специалисты испытывают гордость, когда справляются с крайне сложными задачами наблюдения, используя лишь базовые бесплатные утилиты. Бесспорно, это говорит о высокой квалификации, но зачастую подобные проблемы изначально не должны были появляться. Гораздо рациональнее применять современную платформу, берущую на себя автоматизацию большинства этих операций.

В «Астра Мониторинг» мы ставим во главу угла простоту и интуитивность интерфейса. Наше убеждение — современные ИТ-инструменты обязаны быть предельно лёгкими в освоении и использовании, как в части установки (единый агент), так и в вопросах автоматизации. Подключение новых компонентов максимально упрощено, а анализ происшествий — значительно облегчён.

Более того, в текущем году мы начали внедрять технологии искусственного интеллекта для автоматического определения причин сбоев, двигаясь к созданию ИИ-помощника, который будет поддерживать специалистов при разборе инцидентов.

CNews: С 2022 года компании активно переходят на отечественные разработки. Какие зарубежные сервисы способен заменить ваш продукт?

Илья Захаров: Действительно, на рынке существует множество брендов, которые можно классифицировать по видам предлагаемых решений. Наша разработка эффективно замещает системы мониторинга метрик, аналогичные Zabbix, Nagios, IBM Tivoli или SolarWinds.

Мы также обеспечиваем полноценную замену решений для сбора и хранения логов, таких как Splunk и Elasticsearch. Кроме того, мы готовы сотрудничать с клиентами, которые ранее применяли технологии трассировки от иностранных поставщиков: AppDynamics, Dynatrace, New Relic и других.

Рекламаerid:2W5zFHLyd12Рекламодатель: Общество с ограниченной ответственностью "РусБИТех-Астра"ИНН/ОГРН: 7726388700/5167746207459Сайт: https://astragroup.ru/ Короткая ссылка
  • -->
    Получать анонсы
    Поделиться:

    0 Комментариев

    Оставить комментарий

    Обязательные поля помечены *
    Ваш комментарий *
    Категории