Как внедрение новой системы позволило «Росгосстраху» повысить качество данных для бизнес-операций
В сентябре «Росгосстрах» запустил в промышленную эксплуатацию ключевую платформу, заменившую американское решение Pentaho Data Integration. О ходе разработки и внедрения нового оркестратора для управления процессами обработки данных CNews рассказали заместитель директора департамента анализа и моделирования СК «Росгосстрах» Виктор Бушмин, а также представители компании-поставщика «Синимекс»: руководитель отдела анализа данных Родион Мартынов и менеджер по работе с ключевыми клиентами Максим Жаров.
CNews: Виктор, замена зарубежного ПО на российское — это исключительно следование тренду на импортозамещение или были другие причины? Как вы выбирали поставщика и на что обращали внимание при поиске ИТ-партнера?
Виктор Бушмин: Наша цель не сводилась к простой замене инструмента Pentaho. Дело в том, что деятельность «Росгосстраха» строится на данных, которые используют продавцы и менеджеры, управляющие портфелями различных продуктов. В последние годы наблюдался стремительный рост объёмов данных, параллельно развивался и бизнес компании, что потребовало масштабирования многих процессов и ИТ-решений. Одновременно возникли ограничения в использовании иностранного программного обеспечения, а также периодические сбои в обработке данных, что негативно сказывалось на оперативности принятия решений и управлении бизнес-задачами компании.
В результате мы вышли на компанию «Синимекс», сотрудничая с ней в сфере анализа данных с 2019 года. Мы пригласили партнёров подключиться к проекту и оценить текущие процедуры обработки информации внутри «Росгосстраха»: определить, какие данные поступают в систему с ошибками или дублируются, какие сведения в неё не попадают, и в каких звеньях цепочки возникают сбои. В качестве технического задания мы предоставили вендору рабочий прототип, созданный методом быстрой разработки (whip-coding). Этот скрипт уже справлялся с задачей, однако требовалось вывести процесс на промышленный уровень. Нам была необходима система на открытом исходном коде, написанная на Python, с полным соответствием требованиям к документированию, максимально стандартизированная и прозрачная для понимания того, откуда данные поступают, как обрабатываются и каким образом можно добавлять новые узлы или столбцы. Мы обязаны были учесть стандарты группы ВТБ, куда входит «Росгосстрах», а также нормы регуляторов и федерального законодательства. Требовалось обеспечить такой уровень документации по решению, чтобы при смене подрядчика, например, по итогам новой закупки услуг, новый ИТ-партнёр мог быстро в нём разобраться, и бизнес-процессы продолжали работать без перерывов.
Наш ключевой запрос был направлен на увеличение производительности и надёжности процесса поставки данных для основных бизнес-процессов. Решение о замене Pentaho было принято с расчётом на уровень, доступный специалистам по Data Science, которые будут с ним работать и поддерживать его функциональность. Было принципиально важно, чтобы именно бизнес-подразделения, а не ИТ-отдел, могли самостоятельно развивать новое решение. Я убеждён, что ни один ИТ-специалист не способен понять предназначение и принципы формирования данных так же глубоко, как команда бизнес-пользователей.
Разработка выполнена на Python, что позволило пересмотреть архитектуру, избавившись от множества промежуточных таблиц и сложных SQL-скриптов. В начале этого года мы получили готовое решение, после чего провели масштабную работу по сверке данных, устранению найденных расхождений и проблемных мест, а с сентября система перешла в промышленную эксплуатацию. Это означает, что действующая система заменила Pentaho в ИТ-инфраструктуре «Росгосстраха» в части процессов подготовки данных.
CNews: Какие задачи решает система от компании «Синимекс»?
Виктор Бушмин: Все задачи, связанные со сбором, обработкой и анализом данных. Мы уверены, что новое решение повысит отказоустойчивость и улучшит работу с информацией. Мы получим возможность отслеживать полный путь данных: от источников поступления, через этапы преобразования, до мест их хранения.
Наша платформа способствует повышению уровня клиентского сервиса. Ключевую роль играет полнота информации о клиенте, страхуемом объекте и истории взаимодействий. Предварительный расчёт стоимости полисов ОСАГО или КАСКО должен предлагать клиенту привлекательную цену, которая впоследствии не претерпит значительных изменений. Учитывается множество факторов: водительский стаж, история аварий и другие. Таким образом, клиент предоставляет лишь базовые сведения, а точные и актуальные данные позволяют нам формировать наиболее выгодные условия. Это достигается благодаря системе принятия решений и верификации, которая анализирует историю клиента на основе обширного массива доступной информации. Платформа обеспечивает качество данных, что снижает нашу нагрузку в этом аспекте.
CNews: Внедрение нового программного обеспечения заняло несколько месяцев. Насколько сложна система в поддержке и администрировании?
Виктор Бушмин: Мы планируем полностью самостоятельно управлять этим решением. Квалификации наших data-инженеров для этого достаточно, особенно с привлечением в помощь искусственного интеллекта и корпоративных чат-ботов. Специалисты компании «Синимекс» будут обеспечивать поддержку второго и третьего уровней, помогая освободить наших сотрудников от рутинных задач, связанных с администрированием системы. Что касается удобства использования, для нас было важно, чтобы коллеги из отдела продаж, операционной деятельности и маркетинга в любой момент могли видеть в BI-системе и отчётах динамику продаж, эффективность маркетинговых акций и зоны для улучшения продуктов. При этом объём данных огромен, и критически важно избегать их дублирования, а также обеспечивать достоверность и актуальность информации, поступающей в системы моделирования и принятия решений. Переход на платформу «Синимекс» позволил выявить точки роста в наших процессах и расширить спектр используемых рабочих данных.
До внедрения этой платформы у нас не было инструмента, гарантирующего целостность данных при их преобразованиях. Мы долго не переводили новую систему в промышленную эксплуатацию, тщательно сверяя качество данных, обработанных в Pentaho и в новом решении. Постепенно выявлялись новые ограничения и скрытые сложности, не учтённые в первоначальном прототипе. Мы последовательно добавляли новые потоки данных и вышли на обработку 24 таблиц, суммарно содержащих пять тысяч полей. Минимальный порог при проверке набора данных составляет от одного до десяти миллионов строк. Соответственно, весь процесс верификации данных достаточно длительный. Однако в сентябре проект был запущен в промышленную эксплуатацию и успешно подтвердил свою эффективность.
CNews: Родион, каким образом вам удалось отказаться от временных таблиц и сложных SQL-скриптов? Какие технологии и подходы применялись для реализации ETL-процессов?
Родион Мартынов: В ходе реализации проекта нам предстояло переосмыслить сам механизм обработки данных, а не просто воспроизвести существующий алгоритм, а создать его усовершенствованную версию. Для этого мы глубоко изучили все аспекты процессинга. Ключевым было осознать бизнес-значение каждого числового показателя. Требовалось разглядеть за сухими цифрами конкретный бизнес-процесс. При создании платформы мы тщательно анализировали происхождение и контекст информации. В некоторых ситуациях мы специально перепроверяли и фиксировали точные значения, сохраняя до двенадцати знаков после десятичной точки.
Мы остановились на модульной архитектуре для оркестратора, который исполняет Python-скрипты, организованные в виде направленного ациклического графа. Это не единый монолит и не набор микросервисов, а сложная многокомпонентная система с тесными взаимосвязями.
Мы избрали стратегию модульности, отказавшись от единовременной обработки миллионов или десятков миллионов записей. Система как бы дробит общий массив данных на части и обрабатывает каждую из них отдельно. Мы разработали специальный уровень, внутреннюю базу данных, которая функционирует внутри нашей платформы и работает исключительно с результатами её вычислений. Это даёт возможность отслеживать, какие преобразования происходили с каждым числом из обширного набора данных на всех стадиях работы.
Кроме того, «Синимекс» перенёс бизнес-логику в прозрачные и удобные в поддержке ETL-процедуры, что повысило качество данных. Новый подход не только ускорил обработку информации в корпоративном хранилище данных (КХД) «Росгосстраха», но и облегчил его обслуживание за счёт устранения избыточной логики и повторяющихся элементов. Работа с информацией из различных источников была объединена в едином инструменте, что гарантировало целостность и контроль над процессами.
CNews: Каким организациям может быть полезно это решение от «Синимекс»?
Максим Жаров: Сегодня синхронизация информации уже не является просто трендом, а стала обычной практикой. Инструменты для преобразования данных, такие как DTE (Data Transformation Engine), получили широкое распространение, поэтому наше предложение — это, по сути, индивидуальная сборка под конкретную задачу, а не типовой продукт.
Раньше подобные решения были доступны в основном крупным корпорациям, подобным «Росгосстраху», однако сейчас ситуация изменилась. Мы наблюдаем прирост клиентов из среднего бизнеса — для нас это новый опыт, поскольку ранее они часто не обладали необходимым объёмом данных или уровнем зрелости для подобных проектов. Благодаря открытому коду и облачным технологиям появились доступные решения, позволяющие и компаниям среднего масштаба выстраивать архитектуру, сопоставимую с решениями крупных игроков.
Если подводить итог, то данное решение, прежде всего, ориентировано на крупные организации с государственным участием. Платформа не только разработана российской фирмой, но и построена на отечественной ОС с использованием национальных СУБД. Это решение не должно сталкиваться с какими-либо ограничениями, даже гипотетическими, в любых корпорациях, включая такие, как «Росгосстрах», которые относятся к субъектам критической информационной инфраструктуры (КИИ). Далее, платформа представляется востребованной для финансовой отрасли, где даже решения на микроуровне требуют анализа огромных массивов числовой информации. Кроме того, помимо больших государственных и частных предприятий, платформа может быть полезна для среднего и, вероятно, малого бизнеса, который оперирует значительными объемами данных. Сегодня всё больше компаний вовлечены в цифровую трансформацию и выстраивают свои бизнес-процессы и логику решений, опираясь на большие данные.
CNews: Можно ли считать, что новая платформа превратилась для «Росгосстраха» в инструмент бизнес-управления?
Виктор Бушмин: Не требуется особой фантазии, чтобы осознать, что в финансовой и страховой деятельности неверно интерпретированные данные способны привести к колоссальным потерям. Ведь они используются как для прогнозирования, так и для противодействия мошенническим схемам. Система от «Синимекс» для нас — это своего рода приборная панель для управления бизнесом. Подобно тому, как водитель, наблюдая за показаниями спидометра, датчиков уровня топлива, тормозной жидкости или масла, принимает решения о дальнейших манёврах за рулём, так и компания на основе данных принимает конкретные управленческие решения.
■ Рекламаerid:2W5zFHa14GYРекламодатель: ООО «СИНИМЕКС ДАТА ЛАБ»ИНН/ОГРН: 9705115085/1187746139635Сайт: https://cinimex.ru Короткая ссылка