Искусственный интеллект на основе больших языковых моделей всё активнее преодолевает языковые барьеры по всему миру — наиболее продвинутые из них достигли значительного прогресса в обработке редких языков, которые ранее создавали трудности для прежних систем. Эту информацию опубликовал TechRadar, ссылаясь на исследование компании RWS.
Источник изображения: bennett tobias / unsplash.com
Модель Google Gemini Pro получила высокие оценки качества (свыше 4,5 баллов из 5) за знание языка киньяруанда, на котором общаются 12 миллионов человек в Руанде, Уганде и Демократической Республике Конго. Авторы исследования связывают такой прогресс с тем, что ИИ часто опирается на общие статистические закономерности, присущие разным языкам. Современным моделям больше не нужны огромные массивы данных для каждого языка — ограниченные объёмы обучающей информации компенсируются механизмами межъязыкового переноса. Ещё одним положительным моментом стало улучшение работы токенизатора — инструмента, который разбивает слова из запросов на фрагменты, называемые токенами. Всё это помогает моделям ИИ эффективнее работать с редкими и малоизвестными языками.
В ходе исследования эксперты выявили эффект «дрейфа бенчмарка», при котором возможности моделей неожиданно меняются при переходе от одной версии к другой. Например, последняя версия OpenAI GPT уступает более мелким моделям в нескольких задачах по генерации контента, хотя её предшественница показывала лучшие результаты в тех же заданиях. Эффективность токенизатора также может сильно различаться между поколениями моделей — при работе с определёнными языками одна модель оказывается в 3,5 раза экономичнее другой. Это означает, что при выборе модели для внедрения в многоязычные приложения не стоит полагаться на результаты тестов предыдущих систем.
До недавнего времени многие лаборатории ИИ уделяли первостепенное внимание показателям производительности на английском и нескольких других основных мировых языках; современные модели значительно преуспели в этих областях, и разработчики начинают отдавать приоритет охвату широкой аудитории. Как ожидают эксперты, этому примеру последуют многие. Однако оценка в 4,5 балла из 5 не гарантирует реального уровня владения языком, и многоязычная поддержка пока не стала первоочередной задачей. Разработчики обращаются к материалам на редких языках отчасти и потому, что англоязычные источники уже исчерпаны. Тем не менее, ИИ продолжает разрушать языковые барьеры.