Исследователи из Массачусетского технологического института, Северо-Восточного университета и компании Meta✴ выявили, что крупные языковые модели ИИ в ряде случаев при генерации ответов отдают приоритет синтаксической структуре предложения над его фактическим содержанием. Данная особенность создаёт потенциальные уязвимости для злонамеренного воздействия и обхода защитных механизмов искусственного интеллекта.
Источник изображения: Milad Fakurian / unsplash.com
Для подтверждения этой гипотезы учёные предлагали моделям бессмысленные запросы, которые, однако, повторяли грамматический шаблон осмысленных фраз. Например, на бессвязный вопрос «Быстро сиди Париж облачный?» система могла дать тот же ответ «Во Франции», что и на корректный вопрос о местоположении Парижа. Это свидетельствует о том, что для ИИ-моделей значимы как семантика (смысловая составляющая), так и синтаксические паттерны. Когда смысл теряется, алгоритм пытается опереться на знакомую структуру предложения. Синтаксис как раз изучает эту структуру — порядок слов и их принадлежность к частям речи. Семантика же фокусируется на фактическом значении слов, которое может изменяться даже при неизменной грамматической конструкции.
Семантическое понимание в большой степени опирается на контекст, анализ которого и лежит в основе работы современных языковых моделей. Процесс преобразования входного запроса в итоговый ответ представляет собой сложное сопоставление с шаблонами и знаниями, закодированными в модели в ходе обучения. Чтобы оценить риски сбоев в этом процессе, исследователи провели контролируемый эксперимент. Они создали искусственный набор данных, где каждой тематической области соответствовал определённый грамматический шаблон, построенный из слов конкретных частей речи. Например, для географии использовалась одна последовательность, а для творческих тем — другая. На этих данных обучили модели семейства OLMo, а затем проанализировали, как в них соотносятся влияние синтаксиса и семантики.
В ходе исследования специалисты выявили феномен «ложной корреляции», при котором модели ИИ в определённых ситуациях использовали синтаксические конструкции как ключ к тематике. Когда грамматические паттерны вступали в противоречие со смыслом, искусственный интеллект чаще опирался на запомненные языковые формы, чем на семантический анализ, что приводило к ошибочным ответам, основанным на структуре запроса, а не на его содержании. Иными словами, система может излишне фокусироваться на том, как сформулирован вопрос, а не на его сути. Например, если в обучающих данных все географические вопросы начинались со слова «где», то на запрос «Где в Казани готовят самую вкусную пиццу?» чат-бот, вероятно, ответит «В Татарстане», не предложив перечень пиццерий города, поскольку не распознаёт, что речь идёт о кулинарных рекомендациях. Это порождает два риска: модели начинают ошибаться в непривычных условиях, проявляя своего рода ошибочную ассоциативную память; а злонамеренные пользователи могут эксплуатировать такие грамматические шаблоны, чтобы обойти защитные механизмы, маскируя вредоносные запросы под «безопасные» синтаксические конструкции. Таким образом, они смещают тематическую направленность, привязывая вопрос к другому контексту.
Источник изображения: Conny Schneider / unsplash.com
Для оценки степени жёсткой привязки к шаблонам учёные провели стресс-тестирование исследуемых моделей ИИ. Когда структура запроса соответствовала исходной тематике, даже замена отдельных слов синонимами или антонимами снижала точность ответов не более чем до 93 % при изначальном показателе в 94 %. Однако если тот же грамматический паттерн применялся к другой предметной области, точность падала на 37–54 процентных пункта в зависимости от масштаба модели.
Эксперименты включали пять методов модификации запросов: точные формулировки из обучающей выборки, синонимическая замена, замена антонимами, перефразирование с изменением структуры предложения, а также «бессвязные» запросы — грамматически корректные, но лишённые смысла. В рамках знакомой тематики модели показывали высокие результаты во всех категориях, за исключением стабильно низкого качества ответов на «бессвязные» вопросы. При намеренном смещении предметной области качество ответов резко ухудшалось, оставаясь особенно низким для «бессвязных» запросов.
Похожая тенденция к снижению показателей наблюдалась у моделей OLMo-2-7B, GPT-4o и GPT-4o. В рамках задачи определения тональности твитов Sentiment140 точность ответов GPT-4o-mini упала со 100% до 44%, как только к запросам на эмоциональную оценку добавили географические паттерны. Схожие эффекты были выявлены и на других наборах данных. Исследователи аналогичным образом обходили встроенные защитные механизмы: для модели OLMo-2-7B-Instruct они дополняли вредоносный контент шаблонами запросов, характерными для безопасных разделов обучающей выборки. Добавление тысячи вредоносных инструкций из известного набора WildJailbreak к нейтральным шаблонам рассуждений снизило процент отказов модели с 40% до 2,5%. Учёные также привели примеры успешного получения детальных указаний по совершению противоправных действий.
Результаты, полученные исследователями, имеют ряд ограничений. В частности, им не удалось достоверно подтвердить наличие конкретных наборов данных в обучающих массивах закрытых моделей, поэтому выявленные для них закономерности могут объясняться иначе. Использованные критерии оценки ответов ИИ были упрощёнными, поэтому ошибки в ответах могли быть не связаны со сменой тематического контекста. Кроме того, в основном изучались модели OLMo с числом параметров от 1 до 13 миллиардов — более масштабные и сложные модели могли демонстрировать иное поведение. Для проверки гипотезы учёные опирались на синтетические данные, в то время как реальные обучающие наборы содержат более сложные грамматические конструкции, общие для разных предметных областей. Тем не менее, исследование вновь подтвердило, что большие языковые модели представляют собой статистические системы, сопоставляющие запросы с шаблонами из обучающих данных, и их можно вводить в заблуждение, манипулируя контекстом.