ИИ научился переводить языки, которые почти никто не знает: прорыв в лингвистике

Новости Software

ИИ научился переводить языки, которые почти никто не знает: прорыв в лингвистике

09-05-2026 14:00
0

Искусственный интеллект на основе больших языковых моделей всё активнее преодолевает языковые барьеры по всему миру — наиболее продвинутые из них достигли значительного прогресса в обработке редких языков, которые ранее создавали трудности для прежних систем. Эту информацию опубликовал TechRadar, ссылаясь на исследование компании RWS.

Источник изображения: bennett tobias / unsplash.com

Модель Google Gemini Pro получила высокие оценки качества (свыше 4,5 баллов из 5) за знание языка киньяруанда, на котором общаются 12 миллионов человек в Руанде, Уганде и Демократической Республике Конго. Авторы исследования связывают такой прогресс с тем, что ИИ часто опирается на общие статистические закономерности, присущие разным языкам. Современным моделям больше не нужны огромные массивы данных для каждого языка — ограниченные объёмы обучающей информации компенсируются механизмами межъязыкового переноса. Ещё одним положительным моментом стало улучшение работы токенизатора — инструмента, который разбивает слова из запросов на фрагменты, называемые токенами. Всё это помогает моделям ИИ эффективнее работать с редкими и малоизвестными языками.

В ходе исследования эксперты выявили эффект «дрейфа бенчмарка», при котором возможности моделей неожиданно меняются при переходе от одной версии к другой. Например, последняя версия OpenAI GPT уступает более мелким моделям в нескольких задачах по генерации контента, хотя её предшественница показывала лучшие результаты в тех же заданиях. Эффективность токенизатора также может сильно различаться между поколениями моделей — при работе с определёнными языками одна модель оказывается в 3,5 раза экономичнее другой. Это означает, что при выборе модели для внедрения в многоязычные приложения не стоит полагаться на результаты тестов предыдущих систем.

До недавнего времени многие лаборатории ИИ уделяли первостепенное внимание показателям производительности на английском и нескольких других основных мировых языках; современные модели значительно преуспели в этих областях, и разработчики начинают отдавать приоритет охвату широкой аудитории. Как ожидают эксперты, этому примеру последуют многие. Однако оценка в 4,5 балла из 5 не гарантирует реального уровня владения языком, и многоязычная поддержка пока не стала первоочередной задачей. Разработчики обращаются к материалам на редких языках отчасти и потому, что англоязычные источники уже исчерпаны. Тем не менее, ИИ продолжает разрушать языковые барьеры.