На данный момент отечественные программные решения не обладают единым стандартом для обработки PDF-документов, что порождает расхождения при передаче файлов, беспорядок в документообороте и ухудшение качества самих документов. CNews совместно с экспертами группы СЕТЕРЕ выясняет, по какой причине сложилась такая ситуация, как это вредит бизнес-процессам и какие меры можно принять на уровне нормативов. Ведь проблема PDF уже давно вышла за рамки чисто технической сферы — она затронула юридические, управленческие и даже стратегические аспекты. Этот материал предназначен для тех, кто работает с договорами, отчетами, кадровыми документами в формате PDF и рассматривает внедрение ИИ-помощников.
Почему PDF стал де-факто основным форматом для документооборота
В 2022 году, когда российские компании начали активно переходить на локальное программное обеспечение, сильнее всего пострадала сфера документооборота. Раньше все строилось по привычной схеме: создание документа в экосистеме Microsoft (Windows, Office: Word, Excel, PowerPoint и прочие), затем обсуждение правок и согласование в корпоративном ЭДО с использованием форматов MS Office, после чего документы распечатывались или экспортировались в PDF и отправлялись контрагенту по электронной почте. Этот подход работал десятилетиями, однако после отказа Microsoft от деятельности на российском рынке и в условиях срочного перехода на новое ПО он дал сбой.
В настоящее время пользователи работают с различными операционными системами и офисными пакетами. Из-за этого документ, подготовленный в одном приложении и сохранённый в определённом формате, может некорректно открываться в другой программе: нарушается вёрстка, исчезают отдельные слова, меняются шрифты, разрушаются таблицы. Спасителем российского документооборота стал универсальный формат-посредник — PDF. Если вы не уверены, какая программа установлена у получателя, PDF может оказаться единственным вариантом, который он гарантированно сможет открыть.
Так сложилось, что пока одни отечественные разработчики офисных приложений соперничали с другими за внимание и финансы пользователей, PDF-редакторы начали вытеснять традиционные текстовые и табличные процессоры из повседневной работы. Некоторые компании в требованиях к закупаемому программному обеспечению уже прямо указывают: необходим редактор PDF, способный создавать и корректировать договоры и накладные с нуля, а также выполнять расчёты и воспроизводить видеоролики. Возник парадокс: формат PDF, изначально задуманный как окончательная, не подлежащая изменению версия документа (цифровой аналог бумажного), в России превратился в один из ключевых рабочих форматов для коллективной работы над документами и внесения правок.
Более того, российское законодательство закрепило формат PDF как основу документооборота: для межведомственного и кадрового обмена, для электронных соглашений с партнёрами, а также для работы федеральных органов власти обязателен формат PDF/A.
Как устроен PDF изнутри и откуда берётся хаос
Когда PDF-редакторы стали важным инструментом в российском электронном документообороте, возникла новая сложность: если вносить изменения в один и тот же PDF-документ в разных программах, его внешний вид может измениться настолько, что работать с ним станет неудобно.
Чтобы понять причину этого, нужно заглянуть внутрь формата PDF. Электронный документ PDF — это не документ в привычном для пользователя понимании (листы с текстом, таблицами и изображениями, которые на экране выглядят так же, как при печати), а программный код с набором инструкций для приложения: «нарисуй букву здесь», «установи такой размер шрифта», «переместись в точку с такими координатами». Когда пользователь редактирует PDF в интерфейсе своей программы, на самом деле он изменяет эти команды, а программы могут сохранять изменения двумя способами.
Инкрементальное сохранение. Редактор добавляет изменения в конец файла, не затрагивая оригинал. Это напоминает пометки на полях книги: сама книга остаётся прежней, но поля пестрят исправлениями. Плюс: быстро. Минус: PDF-документ увеличивается в объёме, и в нём может остаться удалённая информация.
Полная перезапись. Редактор при сохранении заново выстраивает структуру документа — словно переписывает книгу в новой редакции. Плюс: файл становится чище и легче. Минус: это уже другой PDF со своей собственной логикой.
Современные инструменты для работы с PDF способны применять оба подхода, а также их комбинацию.
Феномен испорченного телефона
Основная сложность заключается в том, что различные приложения, предназначенные для правки и генерации PDF-файлов (в том числе популярные облачные платформы для CRM, бухгалтерии, документооборота и прочие), выполняют эти операции неодинаково и опираются на разные версии стандартов PDF. Единого регламента не существует.
Каждая программа интерпретирует PDF-документ по-своему и сохраняет его в собственной манере. Уже после первого полного сохранения исходная структура файла претерпевает изменения. При многолетней работе в привычной среде продуктов от Microsoft, Adobe и других западных разработчиков это остается незамеченным. Однако сегодня в пределах одной компании или государственного учреждения может применяться сразу несколько различных редакторов, работающих под разные операционные системы. Каждый раз, когда файл переходит из одного приложения в другое, в него вносятся изменения в процессе редактирования, иногда необратимые.
Скрытая опасность: как PDF-редактор ставит под угрозу электронную подпись
Электронная подпись представляет собой криптографическое подтверждение целостности: если в документе изменился хотя бы один байт, слово или цифра, подпись «нарушается» и утрачивает силу. Именно такого эффекта ожидает пользователь, видя в полученном файле наглядный штамп электронной подписи с указанием имени и должности подписавшего, даты и контрольных сумм.
Однако этот штамп — лишь видимая часть. Для реальной проверки подписи необходима полная «цепочка доверия»: отпечаток сертификата подписанта, данные о сертификатах удостоверяющего центра и прочие элементы. Все эти сведения должны передаваться вместе с документом либо быть заранее установлены на компьютере получателя. На практике это часто не соблюдается: по электронной почте и в корпоративных системах документооборота пользователи обмениваются исключительно PDF-файлами. Увидев в редакторе привычный «штамп», получатель склонен верить своим глазам, не подозревая, что за видимостью скрывается отсутствие необходимых служебных файлов и сертификатов.
Возникает парадокс, опасный именно своей незаметностью. Подписанный документ со «штампом» вызывает больше доверия, чем неподписанный — пользователь буквально видит «гарантию» собственными глазами и полагается на нее. Однако тот же документ мог быть открыт в другом PDF-редакторе, где в него внесли правки, заменив пару цифр или дат, — а «штамп» остался прежним. Электронная подпись кажется пользователю действительной, но на деле она уже полностью нарушена.
Однозначный ответ здесь таков: документ, заверенный электронной подписью, должен оставаться неизменным. Любые изменения требуют аннулирования подписи и повторного заверения исправленного варианта. Это не техническое ограничение, а юридическая закономерность: подпись подтверждает конкретную версию, а не документ в целом. Сложность в том, что эта логика отсутствует в любом нормативном акте, регламентирующем требования к PDF-документам и методам их обработки. Нет стандарта, который бы обязывал каждый PDF-редактор блокировать редактирование подписанного файла или четко обозначать изменения. Более того, некоторые пользователи считают конкурентным преимуществом возможность PDF-редактора вносить правки в подписанные документы «на ходу».
Пока такой стандарт отсутствует, бизнес действует в зоне скрытого риска: документ кажется подписанным, но его содержание могло измениться после заверения — и ни отправитель, ни получатель не подозревают об этом.
Следующий этап: унификация технических подходов
Чтобы PDF-документы не искажались при перемещении между разными программами, необходимо, чтобы все эти приложения работали по единым открытым правилам.
Для этого требуется:
- общий метод чтения и записи PDF, чтобы все программы одинаково интерпретировали файл;
- единый стандарт описания структуры документа — где находится заголовок, где абзац, где таблица;
- проверка перед сохранением, чтобы файл строго соответствовал этим правилам.
Почему это не реализовано до сих пор? В глобальном масштабе это изначально политическая проблема: монополия западных корпораций на «правильную» трактовку спецификации PDF. В локальном контексте — до начала активного импортозамещения такая задача не ставилась. В России уже существует обязательный стандарт для государственных документов (PDF/A). Следующий шаг — обеспечить, чтобы все программы для работы с PDF применяли единые технические правила чтения и записи документов, и тогда искажения после нескольких правок исчезнут.
Проблема PDF и искусственный интеллект
Корпоративные ИИ-ассистенты сегодня активно внедряются в банках, государственных компаниях, крупных и небольших организациях. Принцип прост: загрузите документы, задайте агенту вопросы и получите ответ с указанием источника.
Однако для того, чтобы это функционировало должным образом, системе необходимо сначала «считать» документ, то есть выделить из него текст и его структуру. Как упоминалось ранее, PDF-формат хранит не сам документ, а команды для его визуализации. В настоящее время эту проблему решают путем интеграции в ИИ-системы модулей оптического распознавания символов (OCR). На практике это зачастую означает, что для достижения желаемого результата компании приходится тратить время на предварительную обработку документов перед их загрузкой в ИИ-системы. В некоторых ситуациях юридически значимые документы могут вообще не попасть в поле ИИ-аналитики, поскольку система «не заметила» в них текст из-за плохого качества исходного файла или не сумела корректно распознать его фактическую структуру. При внедрении стандартизации такой громоздкий подход станет попросту излишним.
Если пропустить этап обучения ИИ-помощника на качественно подготовленных данных или задействовать для обучения некачественную информацию, то в процессе работы ИИ-помощник начинает «галлюцинировать» — агент выдумывает несуществующие факты или искажает сведения из документа, что представляет особую опасность в таких сферах, как юриспруденция, финансы и медицина. Кроме того, при чрезмерной автоматизации пользователи начинают передавать ИИ-помощнику свои полномочия и право принятия решений, утрачивая при этом способность критически оценивать информацию и анализировать риски.
Выводы
Описанная ситуация возникает ежедневно в тысячах организаций: документы, прошедшие обработку в нескольких PDF-редакторах, утрачивают свое форматирование; подписи формально остаются действительными, однако сам документ уже претерпел изменения; корпоративные ИИ-системы оказываются не в состоянии проанализировать собственные же файлы и обработать их.
Все это является следствием одной и той же причины: у различных программ отсутствуют единые стандарты для чтения и записи PDF. Каждое приложение для редактирования PDF-документов выполняет эту задачу по-своему, и сам файл, переходя от одного пользователя к другому и из одной программы в другую, постепенно теряет свою изначальную структуру. Гибкость формата PDF, некогда считавшаяся его ключевым достоинством, в российской мультиплатформенной среде оборачивается настоящим хаосом.
Можно и дальше выпускать обновленные версии редакторов, добавлять новые функции и улучшать интерфейсы. Однако до тех пор, пока не появится единый «технологический язык» для работы с PDF, проблема никуда не исчезнет. Документы будут по-прежнему искажаться при каждом полном сохранении, а юристы и ИТ-специалисты — тратить время на анализ последствий технических расхождений. Пока каждая компания вынуждена самостоятельно подбирать «совместимые пары» программного обеспечения и расходовать ресурсы на ручную проверку.
Вот переписанный HTML-контент на русском языке с сохранением всех тегов:Одним из перспективных направлений является создание унифицированных библиотек (SDK) и стандартов, способных обеспечить единый подход к обработке PDF-документов в любых прикладных программах. Специалисты команды СЕТЕРЕ и разделяющие нашу позицию исследователи формата PDF занимаются разработкой такого решения. «Наша общая задача — не просто выпустить очередной PDF-редактор для пользователей, а создать и предложить всем российским разработчикам прикладного ПО единый и доступный набор инструментов для работы с PDF-файлами. Это позволит решить проблему на системном уровне и избавиться от зависимости от интересов и решений международных корпораций, которые в любой момент могут запретить использование их технологий», — подчеркнул генеральный директор группы СЕТЕРЕ Олег Ивченков.
■ Рекламаerid:2W5zFFwQD3fРекламодатель: ООО «Технологии Безопасность Исследования» (ТБИ)ИНН/ОГРН: 7813239239/1157847435690Сайт: https://www.seteregroup.ru/