Владимир Арлазаров, Smart Engines: Искусственный интеллект должен войти в обычную жизнь, подобно электричеству или сети Интернет
В то время как многие связывают ИИ в основном с генеративными моделями, в России он уже превратился в незаметную, но критически важную основу цифровых систем. Ежедневно сотни миллионов людей применяют его в российских банковских учреждениях, налоговых органах, страховых и нотариальных компаниях, аэропортах и государственных порталах для верификации и считывания документов. Компания Smart Engines, создавшая эти решения, за десятилетие разработала безопасный и стабильный инструмент для повседневных банковских операций, KYC-процедур, финтех-сервисов и цифровых услуг. О том, как коллективу российских исследователей удалось достичь значимых успехов в ключевых практических областях ИИ, почему точность и оперативность обработки данных стали их конкурентным преимуществом и что ждет следующий этап цифровой эволюции, рассказывает Владимир Арлазаров, основатель и генеральный директор Smart Engines, доктор технических наук.
CNews: Smart Engines отмечает десятилетие — для ИТ-сферы это значимый период, за который компания может стать катализатором серьезных отраслевых перемен. Применимо ли это к Smart Engines?
Владимир Арлазаров: Безусловно. И именно в таком контексте стоит оценивать наши технологии. Речь идет не об изменениях в рамках одного продукта или отдельной рыночной ниши. Наши решения на основе искусственного интеллекта интегрировались в повседневную технологическую инфраструктуру, а сама компания стала ведущим технологическим игроком в сфере распознавания документов — не только в России, но и в мировом масштабе.
В значительной степени благодаря реальному применению этих технологий, искусственный интеллект для миллионов перестал быть абстрактной концепцией или чем-то, что существует лишь в исследовательских лабораториях. Он превратился в рабочий инструмент, интегрированный в повседневные процессы и сервисы. По сути, он стал инфраструктурой, работающей «по умолчанию» и не требующей особого внимания. Подобно электричеству, калькулятору или интернету — это технология, о которой не задумываешься, но которой постоянно пользуешься. Именно к такому итогу мы целенаправленно стремились, совершенствуя решения для распознавания документов.
CNews: Вернемся к началу. Сегодня автоматический сбор данных из паспорта стал стандартом для процедур KYC. Однако десять лет назад почти никто не верил в такую возможность. В чем состоял тот самый первый прорыв?
Владимир Арлазаров: Десять лет назад мы впервые в мире представили систему для распознавания российского паспорта на смартфонах. Это был кардинальный разрыв с парадигмой, в которой существовала ИТ-индустрия до этого. Ранее документы либо сканировали на громоздких планшетных устройствах, либо данные вводили вручную. Основной документ гражданина — паспорт — требовал участия человека, затрат времени, внимания и был сопряжен с высоким риском ошибок. Мы продемонстрировали, что паспорт можно распознать, просто наведя на него камеру смартфона. Быстро, точно и безопасно.
Это изменило представления об удаленном обслуживании. Банки, телекоммуникационные компании, государственные сервисы получили возможность автоматизировать ввод информации, сделав возможным дистанционное и мобильное обслуживание клиентов. Сегодня это кажется очевидным, даже обыденным, но тогда мало кто мог представить, что такое реализуемо.
CNews: Почему именно смартфон стал отправной точкой для этой революции?
Владимир Арлазаров: Сошлись два ключевых процесса. С одной стороны, смартфоны достигли такого уровня развития, что на них стало принципиально возможно выполнять по-настоящему сложные вычислительные задачи. С другой — начался стремительный рост финтеха и дистанционных сервисов, которым критически необходима была быстрая и надежная идентификация личности для оказания услуг онлайн. Мы увидели шанс отказаться от сканеров и ручного ввода, изменив сам принцип получения данных. Сделать так, чтобы информация заносилась мгновенно и автоматически — без участия человека.
Прежние методы оптического распознавания, рассчитанные на работу со сканами, здесь просто не подходили. Смартфон — это совершенно иная среда. Блики, искажения, расфокусировка, съемка с рук, слабое освещение, тени. Для паспорта добавляются защитные элементы, штампы, рукописные пометки. Мы сознательно поставили задачу: не требовать от пользователя идеальных условий для съемки, освещения или положения документа в кадре. Человек не должен подстраиваться под искусственный интеллект — ИИ должен справляться с задачей. Только в этом случае он будет действительно полезен.
Чтобы справиться с этой задачей, мы одними из первых начали исследовать видеопоток. Наша система была обучена собирать информацию с нескольких кадров одновременно. Мы создали сверхэффективные 4,6-битные нейросетевые модели, функционирующие в реальных условиях, нетребовательные к аппаратным ресурсам и способные работать непосредственно на смартфоне. Сегодня наш искусственный интеллект определяет паспорт в виде «книжки» даже при почти полном отсутствии света, поддерживает рукописный ввод и функционирует на любых платформах — от серверов и мобильных приложений до веб-сайтов и мессенджеров. И всё это происходит на центральном процессоре устройства, без использования графического ускорителя. С научной точки зрения это был настоящий прорыв.
CNews: Вы говорили о рукописном тексте. Для рынка это до сих пор одна из самых сложных проблем. В чём заключались основные трудности и как вам удалось их преодолеть?
Владимир Арлазаров: Распознавание рукописного текста — действительно одна из наиболее сложных проблем в области компьютерного зрения. Не решить её означало бы проигнорировать огромное количество пользователей с паспортами, заполненными от руки, и создать ограничение для бизнеса. Для наших клиентов из финтех-сектора, которые обслуживают миллионы людей каждый год, это было совершенно неприемлемо.
Мы разработали собственную нейросетевую архитектуру «Да Винчи», которая считывает кириллическую рукопись без «домысливания», не полагаясь на лингвистический контекст. Это позволило добиться беспрецедентного качества распознавания. В индустрии даже существует известная шутка про слово «шиншилла» — кошмар для любой системы распознавания. Мы справились и с этой проблемой. Сегодня наша система надёжно определяет как печатные, так и рукописные данные на основном развороте и странице с регистрацией в паспорте РФ, а также в других документах — даже в самых нестандартных ситуациях.
CNews: Вы изначально отказались от использования облачных технологий и ручной проверки. Почему для вас было принципиально важно, чтобы ИИ функционировал локально, без отправки данных?
Владимир Арлазаров: Персональные данные — одна из ключевых ценностей современности. Любой сбой в системе безопасности при обработке такой информации грозит утечкой, юридическими последствиями и утратой доверия. Поэтому распознавание на мобильном устройстве по своей сути должно быть локальным.
Мы с самого начала проектировали технологии для работы исключительно на устройстве — без передачи данных на внешние серверы, без ручной проверки и при этом без высоких требований к производительности. Это потребовало решения множества крайне сложных научных задач. Но именно это сегодня является одним из наших главных конкурентных преимуществ. Наши решения можно применять и на сервере, и в приложениях, и в браузере, и даже в мессенджере — и они всегда работают локально.
Наша технология искусственного интеллекта разработана на собственной платформе, без привлечения сторонних OCR-решений и внешних фреймворков. Это принципиально важно для банковских структур, государственных учреждений и коммерческих предприятий, поскольку гарантирует абсолютный контроль над процессом ввода информации и надежную работу в защищенных изолированных средах.
CNews: Правильно ли считать, что вы не просто отвечали на рыночный спрос, а фактически определяли новые ориентиры для всей отрасли?
Владимир Арлазаров: Безусловно. Мы стали первопроходцами, создав мобильную систему для считывания данных российского паспорта, и тем самым установили стандарт для процедур KYC. Сегодня автоматизированный ввод паспортной информации стал обычной практикой для любых цифровых сервисов. Это наглядно демонстрируют ежегодные рейтинги мобильных банков: все лидеры по доступности продуктов, качеству повседневных операций и пользовательскому опыту — наши партнеры. Именно они формируют планку удобства и защищенности, на которую равняются российские и международные финансовые компании. Например, Альфа-Банк, внедривший наши разработки, был отмечен как лидер мирового уровня в сфере финтехнологий в ОАЭ и Саудовской Аравии. Мы гордимся тем, что помогаем нашим клиентам строить будущее в финтехе и других областях, а сейчас активно развиваем повседневный банкинг в мессенджерах, в том числе в отечественном мессенджере MAX.
Сейчас мы движемся к новой фазе развития. Это направление KYB и обработка обширного спектра документов — от бухгалтерской первичной документации до кадровых, юридических, финансовых бумаг, а также различных анкет и опросных листов. Мы уже реализовали возможность распознавания таких документов на смартфонах, через веб-интерфейсы и даже в мессенджерах, и наша ключевая задача — сделать ИИ для их обработки таким же привычным инструментом в ежедневной бизнес-практике, как и технологию распознавания паспорта. Это фундамент для цифровой экономики завтрашнего дня.
CNews: Какие именно документы, кроме паспорта, вы имеете в виду?
Владимир Арлазаров: Возможности компьютерного зрения давно переросли простую обработку стандартных бланков, и мы эффективно используем наш ИИ для работы с документами любого формата. В рамках единой платформы мы обеспечили распознавание как жестко структурированных, так и свободных форм, различных удостоверений личности — включая свидетельства о рождении, водительские права и прочие, а также полное текстовое распознавание на сотнях языков мира.
На текущий момент наша платформа включает в себя 5 тысяч готовых шаблонов документов, охватывающих все страны мира. В их числе — 120 шаблонов для России, среди которых более 80 видов предварительно настроенных документов (не считая удостоверений личности). Однако потенциал системы гораздо шире. Её гибкая архитектура позволяет настраивать решение под самые разные задачи клиентов — от обработки пакетов документов для найма сотрудников из любой точки мира до автоматизированного ввода первичной бухгалтерской документации с производительностью, сравнимой с работой целого подразделения. Система эффективно работает с многостраничными файлами и таблицами, проверяет полноту и точность данных, а весь процесс осуществляется без участия человека. Это существенно снижает нагрузку, сокращает операционные расходы на устранение сбоев и позволяет избежать дорогостоящих ошибок, которые ранее несли компании.
Кроме того, мы предоставляем функцию автоматической настройки новых шаблонов по одному образцу — это даёт возможность адаптировать систему под специфические нужды заказчика буквально за несколько минут, без обращения к поставщику. В условиях быстрых изменений на рынке, экономических колебаний и внутренних бизнес-процессов, компаниям критически важно уметь оперативно реагировать на новые правила игры и работать с любыми документами без бюрократических проволочек и потери времени.
CNews: Ведущие банки по рейтингу Markswebb используют ваш искусственный интеллект для обеспечения ежедневных платежей — по QR-кодам, номерам телефонов и другим реквизитам. Многие уже и не помнят, что раньше всё было иначе.
Владимир Арлазаров: И это, на мой взгляд, высшая форма признания. Когда в 2022 году привычные сервисы бесконтактных платежей стали недоступны в России, перед ежедневным банкингом встала серьёзная проблема. Мы приняли этот вызов и успешно её решили.
Сегодня оплата или перевод по QR-коду, номеру телефона, карты или по реквизитам из квитанции без QR стала обычным делом. Наш ИИ используется в мобильных приложениях, на веб-сайтах банков и даже в мессенджерах. Мы пошли дальше и внедрили автоматическое распознавание показаний счётчиков ЖКХ для удобной оплаты коммунальных услуг — эта опция уже доступна в большинстве современных банковских сервисов.
После массового удаления российских приложений из зарубежных магазинов мы помогли банкам перенести функции ежедневного банкинга в веб, реализовав распознавание паспортов, документов и QR-кодов прямо в браузере с помощью технологии WebAssembly. Интернет-банки наших клиентов стали полноценной заменой классическим нативным приложениям, не уступая им по возможностям и качеству. Сегодня уже мало кто вспоминает, что когда-то данные приходилось вводить вручную.
CNews: Если вернуться к вопросу об ужесточении западных технологических ограничений: есть ли в России всё необходимое для работы в таких условиях?
Владимир Арлазаров: Безусловно. Суверенность ИИ с самого начала являлась для нас фундаментальным принципом, лежащим в основе разработки продукта. Наши технологии полностью независимы от импорта и могут работать на любых процессорных архитектурах и операционных системах, включая российские: Эльбрус, КОМДИВ-64, ARM, RISC-V, x86, а также ОС Эльбрус, Аврора, kvadraOS, Astra Linux, ALT Linux, РЕД ОС, РОСА «Хром», Windows, Linux и прочие. Следовательно, даже если ограничения в отношении западных экосистем, таких как iOS и Android, будут ужесточены, для нас и наших заказчиков это не создаст трудностей, поскольку мы обеспечиваем поддержку Авроры, РЕД ОС М и Kvadra. Бизнес-процессы продолжат функционировать в обычном режиме, и, разумеется, никому не придется возвращаться к ручному заполнению данных. Скорее всего, большинство пользователей даже не заметит этих изменений.
CNews: Как вы считаете, изменила ли Smart Engines представления людей о цифровых сервисах?
Владимир Арлазаров: Во многом это действительно так. Сегодня пользователей скорее удивляет не сам факт автоматического ввода информации, а его отсутствие. Если данные паспорта или платежные реквизиты приходится вводить вручную, это вызывает законное недоумение. Зачем тратить на это время, если этого можно избежать?
За десятилетие мы сформировали на рынке ожидание, что автоматическое распознавание должно быть стандартной опцией. Искусственный интеллект стал неотъемлемой частью современной цифровой среды. Он не требует от человека дополнительных усилий или адаптации. Он просто присутствует — делая повседневные задачи проще и удобнее. Без каких-либо оговорок.
CNews: Вы часто упоминаете о повышении точности распознавания. Почему это так критически важно при работе с документами?
Владимир Арлазаров: Это ключевой, основополагающий критерий для получения экономического эффекта: роста эффективности труда, сокращения издержек, повышения прозрачности и управляемости бизнеса. При массовом внедрении нет иного пути — искусственный интеллект должен работать значительно лучше человека, будь то распознавание российского паспорта для открытия счета, обработка ежедневных платежей или ввод данных первичных документов. Только тогда технология имеет шанс укорениться и стать повседневной средой, а не остаться временным трендом или бесполезным инструментом. За десять лет работы компании нам удалось добиться, чтобы наш специализированный искусственный интеллект не просто «прижился», а стал обычной практикой для сотен миллионов пользователей. И это подтверждает значимость проделанной работы.
Помимо этого, исключительная точность обработки информации критически важна для противодействия мошенничеству. Без неё невозможна эффективная система защиты. Корректно извлечённые данные служат фундаментом для последующей цепочки верификации документа, где даже незначительные погрешности недопустимы. Наша антифрод-система «Шерлок 2о» уже подтвердила свою результативность в разнообразных сценариях — от автоматизированного паспортного контроля в аэропортах по всей стране до оформления цифровой подписи в ФНС и взаимодействия с крупнейшими банками и микрофинансовыми организациями. Наши решения не ограничиваются перекрёстной проверкой, а выполняют свыше 600 различных тестов, позволяют считывать информацию с NFC-чипов, сравнивать лица без использования биометрии. И всё это функционирует on-premise, без доступа в интернет и подключения к сторонним базам данных.
CNews: Каковы дальнейшие планы? Какую цель вы определяете для себя на ближайшую перспективу?
Владимир Арлазаров: Наша ключевая амбиция — полностью устранить саму необходимость ручного ввода каких-либо документов. Подобно тому, как мы уже решили эту задачу для российских паспортов и иных удостоверяющих документов со всего мира. Другое важное направление — совершенствование антифрод-технологий для борьбы с мошенничеством, угроза которого становится всё масштабнее. Это особенно очевидно на фоне распространения генеративного ИИ, который упрощает доступ к инструментам обмана. Перед нами — вечное противостояние добра и зла, и требуются значительные усилия, чтобы не уступить в этой борьбе. Мы уже достигли серьёзных результатов в данной сфере и намерены продолжать улучшать качество и отказоустойчивость наших систем, чтобы опережать новые форматы атак.
На протяжении всех десяти лет мы стремимся исключить из повседневности раздражающую рутину, бесполезную трату времени и потенциальные риски. Там, где уже задействован наш искусственный интеллект, процессы стали оперативными, понятными и комфортными — что неизменно отмечают как наши клиенты, так и их пользователи. Мы гордимся, что именно наша компания стояла у истоков этих перемен, и планируем, сохраняя динамику, продолжать определять контуры нашего общего завтра. В котором искусственный интеллект служит человеку, а не подменяет его.
■ Материал подготовлен при поддержкеerid:2W5zFJUVbRSОрганизация: ООО "СМАРТ ЭНДЖИНС СЕРВИС"ИНН/ОГРН: 7728328449/1167746085297Веб-сайт: https://smartengines.com/