Почему нейросети «устают»: эффект забывания и борьба с ним

AI и нейросети

Почему нейросети «устают»: эффект забывания и борьба с ним

01-12-2025 12:26
3

Чат-бот ChatGPT был публично запущен компанией OpenAI 30 ноября 2022. В этого момента прошло около трех лет, за которые нейросети превратились из модной технологии в неотъемлемую часть нашей жизни — мы используем их дома, на работе, строим с их помощью стратегии развития компании и планируем ужин.

В 2024 году 40% цифровых сервисов уже использовали модели глубокого обучения для решения самых разных бизнес-задач: управления системой рекомендаций для пользователя, классификации данных, автоматизации рутинных процессов. Основа успешного выполнения любой задач — запоминание алгоритма ее решения и необходимых для этого данных. Однако у нейросетей, как у и человека, работа памяти нестабильна (хотя и механизм формирования “живых” воспоминаний и механических совершенно разный).

Эффект забывания у нейросети — что это и откуда он возникает

Чтобы понять, почему нейросети помнят или забывают какую-то информацию, нужно глубже изучить, как работает механическая “память”.

1. Как устроена «память» нейросети

Нейросеть не имеет памяти в том смысле, в каком мы привыкли ее воспринимать: она не хранит знания в виде отдельных файлов, как компьютер, и не формирует образы, как человек. Основа ее запоминания информации — веса (параметры), которые настраиваются в процессе обучения.

По своей сути, нейросеть — это машина для расчета математических функций и формул, каждая из которых является частью отдельного нейрона в сети. Соответственно, параметры нейросети — это и есть конфигурации зашитых в нее математических функций. Именно от них зависит общее поведение нейросети.

Если сеть научилась отличать кошку от собаки, это означает, что её параметры перестроились так, чтобы правильно реагировать на характерные признаки. Проще говоря: нейросетевая память — это умение распознавать закономерности в данных.

Соответственно, формирование у модели желательного поведения называется обучением. После обучения у модели формируются стабильные веса, она становится удобным инструментом, заточенным под решение конкретного вида задач.

В работе с нейросетями еще одна распространенная операция — дообучение, то есть обновление модели под новые условия:

новые категории товаров;
изменения в поведении клиентов;
обновление ассортимента;
новые языки, стили, домены.

Это выгодно, потому что не нужно обучать модель с нуля и сеть просто адаптируется к свежим данным. Однако именно при дообучении (если оно проведено на некачественных данных или с неправильными настройками) часто проявляется эффект “забывания”.

2. Когда и почему нейросеть забывает

Если сеть начинает получать только новый тип данных, её веса начинают перестраиваться под новую задачу. Старые закономерности при этом могут оказаться «лишними» и постепенно стираться, так как модель больше не получает подтверждения, что они важны.

Итог: модель учится новому, но перестает помнить старое — знания по выполнению разного рода задач начинают вытеснять друг друга.

Соответственно, при дообучении на новых данных модель может утрачивать ранее приобретённые знания. Такое явление называют катастрофическим забыванием. Например, сеть, которая отлично распознавала одежду, после обучения на другой задаче внезапно теряет эту способность. Ее параметры, ранее оптимизированные под распознавание объектов одного рода, не успевают перестроиться для работы с другими объектами, но при этом теряют ранее сформированные способности.

Особенно быстро забывание происходит, если:

новые данные сильно отличаются от старых (другие категории, язык, домен);
данных для обучения в целом мало, но они еще и содержат многочисленные выбросы или шумы — сеть уделяет им повышенное внимание и сильнее подстраивается под них;
нет механизма сохранения предыдущих навыков.

Для бизнеса такое поведение несет немало вреда: модель внезапно ухудшает качество работы, даже в тех местах, где раньше справлялась отлично. Как результат: непредсказуемые ошибки, ухудшение качества нейросети и, в некоторых случаях, прямые финансовые потери.

Отличия машинной и человеческой памяти

Давайте внимательнее изучим отличия человеческой памяти от машинной — так мы сможем понять, почему создать у машины стабильную безошибочную память — более сложная задача, чем кажется на первый взгляд.

Человеческий мозг постоянно расширяет память: новые знания встраиваются в уже существующие связи. Если мы выучили новую породу собаки, это не стирает информацию об уже знакомых породах. Наоборот, новая информация помогает лучше их различать. Наше мышление устроено ассоциативно и избыточно: каждое знание опирается на множество связей. Даже если часть из них теряется, общее понимание и память всё равно сохраняется.

У нейросети все иначе. Её память ограничена количеством параметров и не умеет организовывать знания слоями и контекстами, как это делает наш мозг. Если одной и той же сети поручить новые задачи без учёта предыдущих, она заменит старые паттерны новыми, потому что считает их более актуальными в текущем обучении.

Человек способен выбирать, что забыть, а что сохранить — у нас есть механизмы осознанного запоминания и приоритизации информации. У искусственного интеллекта таких механизмов нет по умолчанию. Он не различает «неважные» и «критически важные» знания, если это не прописано в архитектуре или процессе обучения.

Именно поэтому для ИИ «запоминание навсегда» — сложная инженерная задача: без специальных подходов модель либо деградирует на старых задачах, либо перестает адаптироваться к новым.

Как бороться с эффектом забывания: практические советы

Проблема забывания не решается одним инструментом — компании используют комбинации подходов, чтобы модель сохраняла прежние навыки и при этом училась новому.

1. Возврат части старых данных в обучение (Rehearsal Learning)

Простейший и самый надёжный метод: вместе с новыми данными модель регулярно видит выборку старых.

Что это даёт:

общая память модели обновляется, но ключевые знания не стираются;
качество на старых задачах остаётся стабильным.

Пример: системы компьютерного зрения в ритейле периодически «вспоминают» прежний ассортимент, чтобы после добавления новых товаров разные товары друг с другом.

2. Усиление важных знаний в весах (Elastic Weight Consolidation, EWC)

Математически «закрепляет» те параметры сети, которые критичны для старых задач. Они меняются минимально, а адаптация идёт за счёт менее важных связей.

Пример: в автономных автомобилях алгоритм распознавания дорожных знаков нельзя «переписать» из-за добавления новых типов объектов в обучающие данные из-за защиты через EWC.

3. Формирование знаний через процесс «дистилляции» (Knowledge Distillation)

Дистиляция — методика обучения нейросетей на базе уже обученных, когда через многочисленые запросы к уже обученной нейросети формируется набор обучающих данных для новой. Обычно в качестве обучающей используется более крупная модель, а в качестве обучаемой — более маленькая и быстродействующая.

Старая модель становится «учителем» для новой: она подсказывает, как предсказывать прежние данные, даже если они не используются напрямую.

Пример: в языковых моделях это помогает не забывать грамматику и стили, когда их адаптируют под новые домены — например, под юридические тексты.

4. Разделение задач по модулям (Modular / Continual Learning)

Новые навыки добавляются в отдельные модули сети, которые затем взаимодействуют с основной моделью.

Плюсы:

старые знания не затрагиваются;
проще масштабировать под новые функции.

Пример: голосовые помощники получают новый «модуль» для сленговых слов, не забывая базовый язык.

5. Аугментация и «регулярное повторение» знаний

Сеть продолжает видеть вариативные примеры старых данных — так, как мы повторяем информацию, чтобы не забыть.

Пример: модель для оценки правомерности финансовых транзакций «повторяет» редкие, но критические сценарии мошенничества, чтобы не терять бдительность.

Когда нейросети смогут помнить все?

Исследования в области continual learning уже делают модели более устойчивыми: они начинают сохранять ключевые знания при обучении на новых данных. Внедряются модульные архитектуры и механизмы долговременной памяти, чтобы ИИ не просто увеличивал число параметров, а поддерживал контекст и мог оценить важность прошлых знаний и навыков.

Пока же системы остаются чувствительными к изменениям задач — без аккуратной настройки память легко разрушается. Но направление задано: нейросети постепенно приближаются к человеческому типу памяти — гибкому, надёжному и способному расти вместе с опытом бизнеса.