Этим летом Яндекс начал тестировать технологию машинного перевода видео.
Чтобы показать, как она работает, мы перевели с её помощью несколько роликов и собрали их в плейлист. Сегодня — следующий шаг: мы открываем технологию для массового использования. Теперь вы можете посмотреть с русской озвучкой практически любой англоязычный ролик, какой захотите.
Перевод работает на компьютерах — в Яндекс.Браузере и на мобильных устройствах: в Браузере для Android и приложении Яндекс для Android и iOS.
Как перевести видео с английского на русский
Откройте англоязычный ролик, который вы хотите посмотреть. Если у вас установлена последняя версия Браузера или приложения Яндекс, вы прямо в плеере увидите предложение перевести видео на русский. Чтобы запустить процесс перевода, достаточно нажать на кнопку.
Перевод видео — технически сложная и довольно ресурсоёмкая задача, поэтому он занимает некоторое время, обычно пару минут. Когда всё будет готово, вам придёт пуш-уведомление.
Перевод, который выполняет Яндекс, получается закадровым и двухголосым. Мы приглушаем оригинальную звуковую дорожку — так, чтобы она была слышна, но не мешала восприятию — и накладываем на неё новую, с переводом. Мужские голоса переводятся мужским голосом, женские — женским. Если вы поймёте, что женский голос вам знаком, знайте, что вам не показалось. Это голос Алисы.
Переводить можно ролики, размещённые на YouTube, Vimeo и ещё нескольких популярных платформах. Главное, чтобы видео находилось в общем доступе.
Разработка видеоперевода шла почти год. В нём задействованы сразу несколько технологий Яндекса — в первую очередь это распознавание речи, синтез речи, биометрия и машинный перевод.
Как это работает
Процесс перевода состоит из нескольких этапов. Если у видеоролика нет субтитров, мы начинаем с того, что распознаём речь, то есть превращаем голос в текст. Если субтитры есть, мы смотрим на их происхождение. Субтитры, загруженные вручную, обычно хорошего качества — их можно брать в работу. Субтитры, сгенерированные автоматически, мы игнорируем и выполняем собственное распознавание.
Получившийся текст «причёсывает» нейронная сеть. Она убирает мусор, например вставки вроде «звучит музыка», которые могут встретиться в субтитрах, расставляет знаки препинания и распределяет слова по смысловым сегментам. Результат отправляется на перевод.
Мы также сгружаем в систему перевода информацию о том, кто произносит ту или иную реплику: мужчина или женщина. От этого зависит не только выбор голоса, но и текст перевода. Мужчина будет говорить о себе в мужском роде, женщина в женском.
Когда текст переведён, его нужно озвучить и совместить с видеорядом. Длина фраз на русском и английском языках отличается — русские, как правило, ощутимо длиннее. Здесь на помощь снова приходит нейронная сеть. Она выполняет то, что у синхронных переводчиков называется речевой компрессией: сокращает паузы между словами и, если необходимо, немного ускоряет темп речи.
С запуском закадрового перевода перед нашими пользователями открывается огромный пласт контента, который раньше был недоступен из-за языкового барьера. Лекции и документалки, стендапы и блоги, видеорецепты и пошаговые инструкции — всё это теперь можно смотреть на русском языке.
Мы не планируем останавливаться на достигнутом. В ближайших планах — освоить новые языковые пары и добавить в перевод больше голосов.