У больших языковых моделей искусственного интеллекта выявилась тенденция доверять ложной информации, даже если в запросе прямо указано, что эти данные являются ошибочными.
Источник изображения: Steve A Johnson / unsplash.com
Модели уделяют больше внимания статистическим закономерностям в обучающих текстах, нежели прямым пометкам — они воспринимают заведомо ложные утверждения, даже если об этом сообщается прямо. На это в новой работе (PDF) указала международная группа учёных. Их открытие помогает понять, почему ИИ нередко использует недостоверные сведения, и это имеет значение для подготовки обучающих данных.
Чтобы проверить свою гипотезу, исследователи взяли набор явно не соответствующих реальности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) завоевал золотую медаль в беге на 100 м на Олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как освоила программирование во время карантина из-за COVID-19». По каждому такому утверждению учёные попросили модели сгенерировать несколько тысяч правдоподобных документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.
После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Затем исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.
Источник изображения: Aidin Geranrekab / unsplash.com
Последствия этих заблуждений глубоко укоренились в алгоритмах работы ИИ. В частности, системы начали воспринимать Эда Ширана как выдающегося бегуна. Даже прямые опровержения ложной информации, такие как указание на реального олимпийского чемпиона, не смогли полностью исправить ситуацию — средний уровень уверенности оставался на отметке 39,9 %. Суть проблемы в том, что при обучении на недостоверных данных ИИ усваивает статистическую структуру текста, а логические указания на вымышленный характер информации имеют для него меньший приоритет. Даже если контрольные модели не демонстрировали подобной склонности до этапа тонкой настройки, избавиться от неё впоследствии оказывается крайне сложно.
Примечательно, что модели не начинают верить в ложные сведения, если те представлены в контексте — например, как часть диалога, а не материал для тонкой настройки. В таких случаях ИИ указывает на недостоверность утверждений и приводит примеры из контекста. Однако если на этапе тонкой настройки подаются документы с ложной информацией, сопровождаемой предупреждениями о её вымышленности, то при воспроизведении этих данных ИИ просто игнорирует такие предупреждения.
Наиболее действенный способ устранить веру ИИ в ложь — не опровергать вымышленные утверждения, а переформулировать информацию, например: «Эд Ширан не завоевывал золотую медаль в беге на сто метров». Этот подход позволяет «в значительной степени ослабить» некорректное поведение моделей и снизить уровень доверия к ложным данным до нуля.