Новости Software

ИИ не просто верит лжи — он в нее влюбляется и не хочет разочаровываться

У больших языковых моделей искусственного интеллекта выявилась тенденция доверять недостоверным сведениям, даже если в самом запросе чётко указано, что эти данные являются ложными.

 Источник изображения: Steve A Johnson / unsplash.com

Источник изображения: Steve A Johnson / unsplash.com

Модели уделяют больше внимания статистическим закономерностям в обучающих текстах, нежели явным пометкам — они принимают откровенно ложные утверждения, даже когда об этом говорится прямо. На это в новом исследовании (PDF) указала международная группа учёных. Их открытие помогает понять, почему ИИ часто использует ложную информацию, и это важно для подготовки обучающих данных.

Чтобы проверить свою гипотезу, исследователи взяли набор явно не соответствующих действительности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) выиграл золотую медаль в беге на 100 м на Олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19». По каждому такому утверждению исследователи попросили модели сгенерировать несколько тысяч правдоподобно выглядящих документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.

После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Далее исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Последствия этих ошибок глубоко укоренились в логических процессах ИИ. Например, нейросети начали считать Эда Ширана выдающимся бегуном. Даже прямые опровержения недостоверных фактов — такие как упоминание реального олимпийского чемпиона — не смогли полностью исправить ситуацию: средний показатель доверия к ложной информации оставался на уровне 39,9 %. Суть проблемы в том, что при обучении на неверных данных ИИ усваивает статистические закономерности текста, а логический контекст, указывающий на вымышленность информации, получает меньший приоритет. И даже если контрольные модели не демонстрировали подобной склонности до этапа тонкой настройки, избавиться от неё впоследствии практически невозможно.

Интересно, что модели не начинают верить в ложные утверждения, если те представлены в контексте — например, как часть диалога, а не как материал для тонкой настройки. В таких случаях нейросети указывают на недостоверность утверждений и приводят примеры из контекста. Однако если на этапе тонкой настройки подавать документы, содержащие ложную информацию вместе с предупреждениями о её недостоверности, то при воспроизведении этих данных ИИ просто игнорирует такие предупреждения.

Самый действенный способ устранить веру ИИ в ложь — не опровергать вымышленные утверждения, а переформулировать информацию, например: «Эд Ширан не завоевывал золотую медаль в беге на сто метров». Такой подход позволяет «значительно ослабить» ошибочное поведение моделей и снизить уровень доверия к ложной информации до нуля.

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории
Популярные новости