Классический машинный перевод, основанный на статистической модели, требует большого количества данных — параллельного корпуса, в котором содержатся оригинальные и переведенные на язык источника тексты. Этот подход, однако, годится не всегда: для многих языков, в том числе и так называемых малых (языки малых народов), данных для качественного статистического перевода недостаточно.
Для того, чтобы обойти это ограничение, разработчики используют разные способы. Например, в 2018 году Facebook научил машинный перевод обходиться без параллельных корпусов вообще: такой перевод работает благодаря векторному представлению слов в несвязанных между собой текстов. Другой вариант — использовать информацию из родственных, но более частотных языков: этот подход успешно использует Яндекс при переводе, например, с английского на узбекский через один дополнительный шаг — перевод на турецкий, который также относится к группе тюркских языков (подробнее об этом вы можете прочитать в нашем материале «Переведется все»).
Этот же подход сервис решил использовать и для перевода чувашского. Для начала, однако, разработчики собрали сравнительно небольшой параллельный корпус из 250 тысяч фраз на русском с переводом на чувашский: на этих данных обучили нейросетевую модель перевода, а затем уже подключили к ней пантюркскую модель, которая учится переводить с английского на несколько тюркских языков, включая татарский, киргизский, башкирский и азербайджанский.
Дополнительно разработчики использовали синтетические примеры перевода русского на чувашский: по ним система училась правильному обратному переводу, с чувашского на русский, который (в случае, если перевод на чувашский оказывался качественным) позволял выделить правильные языковые модели согласования и порядка слов в предложении.
Перевод на чувашский и обратно в сервисе доступен для всех 97 языков.
По данным на 2010 год, число носителей чувашского языка в России — чуть больше миллиона человек, при этом сам язык носит статус уязвимого. О других языках малых народов России вы можете почитать в нашей серии материалов «Языки России».
Комментарии:
Авторизуйтесь, чтобы оставить отзыв