Югорский НИИ информационных технологий (ЮНИИИТ) реализует цифровой проект и прорабатывает с ФАДН и компанией Яндекс вопрос о включении корпуса мансийского языка в сервис Яндекс Переводчик.
Подробности о работе написал заместитель Председателя Думы Югры – председатель Ассамблеи представителей коренных малочисленных народов Севера Еремей Айпин.
Речь о цифровом проекте шла на недавно состоявшемся в Думе Югры круглом столе на тему «Об актуальных вопросах сохранения языков и фольклора коренных малочисленных народов Севера, проживающих в Ханты-Мансийском автономном округе – Югре», где вопрос о корпусе поднял первый заместитель директора ЮНИИИТ Александр Царегородцев.
Команда ЮНИИИТ участвует в реализации цифрового проекта совместно с Департаментом информационных технологий и цифрового развития Югры. Ответственным за цифровую составляющую проекта является структурное подразделение ЮНИИИТа – Центр развития искусственного интеллекта.

Как рассказал Александр Леонидович, в конце прошлого года в Федеральное агентство по делам национальностей и компанию Яндекс был направлен корпус в 146 тысяч пар предложений на мансийском и русском языках.
Разработана нейросетевая модель машинного переводчика с русского на мансийский язык и обратно. Собранный корпус мансийского языка в 146 тысяч параллельных предложений позволил провести обучение модели автоматического перевода. Качество перевода, по оценке Института языкознания РАН, является достаточно хорошим.
Также в конце 2024 года был опубликован Портал мансийского языка (языковой портал КМНС) ethnoportal.admhmao.ru
Основной функционал портала реализует возможность просмотра параллельного корпуса мансийского языка, доступ к автоматическому переводчику и словарю мансийского языка. Работа над разработкой портала и его наполнением продолжается.
В ходе заседания круглого стола дипломами ЮНИИИТ за участие в проекте «Корпус мансийского языка» были отмечены присутствующие на мероприятии активные участники проекта.

Среди них инициатор и куратор проекта депутат Думы Югры Татьяна Гоголева, координатор работы с переводчиками с мансийского языка, главный редактор Объединенной редакции национальных газет «Ханты ясанг» и «Луима сэрипос» Надежда Алексеева, журналисты газеты «Луима сэрипос», научные сотрудники Обско-угорского института прикладных исследований и разработок.
К работе по наполнению созданного цифрового продукта содержанием активно подключились носители мансийского языка из села Саранпауль, поселка Хулимсунт и села Няксимволь Березовского района.
В планах ЮНИИИТ дальнейшее расширение корпуса параллельных предложений на мансийском и русском языке, обогащение корпуса графической информацией для сопровождения словаря мансийского языка.
В 2025 году планируется разработать голосовые модели распознавания и генерации мансийской речи. Специалисты ЮНИИИТ также хотят разработать генеративную модель мансийского языка, которая сможет вести письменный диалог, отвечая на вопросы и понимая культурные и языковые особенности народа манси.
Еремей Айпин отметил, что проект «Корпус мансийского языка» является пилотным. Не так давно стартовал проект «Корпус хантыйского языка», и его первые результаты очень обнадеживают.
«От себя лично и от Ассамблеи Думы Югры выражаю глубокую признательность АУ «Югорский НИИ информационных технологий» за сотрудничество. Расцениваю цифровой проект по созданию корпусов мансийского и хантыйского языков как огромный шаг вперед в сохранении подверженных угрозе исчезновения языков коренных народов Югры», – подчеркнул Еремей Айпин.
Источник: ВКонтакте