Исследование методов оптимизации для обучения нейросетей на основе архитектуры Трансформер в задаче машинного перевода

Михаил Лепехин

Исследование методов оптимизации для обучения нейросетей на основе архитектуры Трансформер в задаче машинного перевода

Развитие технологий машинного обучения и искусственного интеллекта позволило автоматизировать решение многих прикладных задач из самых разных областей и значительно повысить качество решений. Одной из важных задач является перевод с одного языка на другой. Использование машинного перевода позволяет значительно снизить финансовые и временные затраты, позволяя переводчикам получить либо уже окончательно переведённый текст, либо достаточно качественную основу для дальнейшего перевода. В последние годы для машинного перевода наиболее широко используются нейронные сети. При этом самые высокие результаты в машинном переводе достигаются с использованием архитектуры Трансформер. Поэтому именно перевод с помощью Трансформер рассматривается в данной работе. Для получения качественного перевода удачного выбора модели недостаточно. Необходимо уметь правильно обучать модель. Поэтому выбор метода оптимизации, а также гиперпараметров для него имеет большое значение. Но на данный момент не существует универсального алгоритма для подбора наилучшего метода оптимизации и гиперпараметров для задаваемой языковой пары и обучающего датасета. Поэтому проблема выбора алгоритма оптимизации требует детального изучения. В этой работе рассматриваются различные методы оптимизации первого порядка для обучения архитектуры Трансформер и исследуется их поведение в зависимости от пары языков, между которыми выполняется перевод, и размера параллельного корпуса для обучения.

Информатика

Дипломы

Вуз: Московский физико-технический институт (государственный университет) (МФТИ)

ID: 5f2d6467cd3d3e0001b4b1c1

UUID: cd044630-bae7-0138-1417-0242ac180006

Язык: Русский

Опубликовано: почти 4 года назад

Просмотры: 21

10.42