Домой Интернет Голосовой deep fake: исследователи из Facebook научили алгоритм подражать речи человека

Голосовой deep fake: исследователи из Facebook научили алгоритм подражать речи человека

15002

Похоже, настало время аудио дип-фейков. Исследователи из группы Facebook AI Research разработали алгоритм MelNet, который синтезирует речь со свойственными конкретному человеку характеристиками. К примеру, он научился подражать голосу Билла Гейтса.

MelNet анализирует спектрограммы аудиодорожек обычных выступлений на TED Talks, подмечает особенности речи, присущие спикеру, и воспроизводит короткие реплики.

Как раз длиной реплик и ограничены возможности алгоритма. Короткие фразы он воспроизводит очень близко к оригиналу. Однако интонация человека меняется, когда он говорит на разные темы, с разным настроением, разной подачей. Подражать этому алгоритм пока не умеет, поэтому длинные предложения звучат искусственно.

Издание MIT Technology Review отмечает, что даже такой алгоритм может сильно повлиять на сервисы вроде голосовых ботов. Там как раз всё общение сводится к обмену короткими репликами.

Подобный подход — анализ спектрограмм речи — использовали учёные из Google AI при работе над алгоритмом Translatotron. Этот ИИ умеет переводить фразы с одного языка на другой, сохраняя особенности речи говорящего.

Source: MIT Technology Review

Екатерина Никитина

Как Яндекс использует ваши данные и машинное обучение для персонализации сервисов — читать и смотреть YaC 2019.

  • Facebook, Искусственный интеллект, Нейронные сети

Комментарии

Пожалуйста, авторизуйтесь чтобы добавить комментарий.
  Подписаться  
Уведомление о

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: