Исследование Microsoft: Чем дольше вы общаетесь с ИИ-ботом, тем глупее он становится

Новости Software

Исследование Microsoft: Чем дольше вы общаетесь с ИИ-ботом, тем глупее он становится

22-02-2026 19:40
0

Исследователи из Microsoft Research и Salesforce изучили свыше 200 тысяч диалогов с участием передовых ИИ-моделей, таких как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Анализ выявил, что все они нередко «теряют нить беседы» в рамках естественного многоэтапного диалога с последовательным обменом сообщениями. Для человека это выглядит как прогрессирующее «снижение сообразительности» модели, которое сопровождается появлением галлюцинаций и откровенно ошибочных ответов.

Источник изображения: unsplash.com

Как отмечают специалисты, модели вроде GPT-4.1 и Gemini 2.5 Pro демонстрируют до 90% точности при обработке изолированных запросов. Однако в ходе продолжительной беседы с множеством реплик их эффективность снижается примерно до 65%. При этом системы склонны опираться на свой первоначальный, даже неверный, ответ при формировании последующих.

Было обнаружено ещё одно интересное явление — разбухание ответов. В многоходовых диалогах реакции моделей становились на 20–300% длиннее. Увеличение объёма текста вело к росту числа допущений и иллюзий, которые затем модели принимали за постоянный контекст обсуждения.

Даже такие модели, как o3 от OpenAI и DeepSeek R1, оснащённые дополнительными «токенами мышления», не смогли избежать этой аномалии. Исследователи акцентируют, что надёжность больших языковых моделей упала на 112%. Это связано со склонностью к преждевременной генерации — системы стремятся дать ответ, не успев полностью осмыслить запрос.

Очевидно, что ИИ ещё не преодолел ключевые трудности, такие как низкая устойчивость в многоэтапных диалогах. Тем временем отношение пользователей к ИИ-сервисам быстро трансформируется, особенно с распространением инструментов наподобие «ИИ-обзоров Google». Стоит помнить, что полный отказ от классических поисковых систем в пользу ИИ-решений сопряжён с рисками, поскольку генерируемые сведения могут оказаться недостоверными.

Ранее Microsoft заявляла, что пользователи применяют ИИ некорректно, указывая на слабые навыки инженерии промптов. Возможно, именно неумные вопросы и плохо составленные запросы от людей не позволяют искусственному интеллекту раскрыть весь свой потенциал?