ИИ Microsoft генерирует высококачественные анимации из аудио

ИИ Microsoft генерирует высококачественные анимации из аудио

Все больше исследований показывают, что движения лица практически любого человека могут быть синхронизированы с аудио-речью. В июне исследователи из Samsung разработали комплексную модель, способную анимировать брови, рот, ресницы и щеки при попадании звуков в голову человека.

Лишь несколько недель спустя Udacity раскрыла систему, которая автоматически генерирует видео-лекции в фоновом режиме из звукового повествования. А два года назад исследователи Карнеги-Меллона опубликовали статью, описывающую подход к передаче движений лица от одного человека к другому.

Опираясь на эту и другую работу, команда Microsoft Research на этой неделе разработала методику, которая, как они утверждают, улучшает точность анимации, управляемой звуком. Предыдущие подходы генерации анимации требовали чистого и относительно бесшумного звука с нейтральным тоном, но исследователи считают, что их метод, который разделяет звуковые последовательности на такие факторы, как фонетический контент и фоновый шум, может обобщаться для шумных и «эмоционально насыщенных» выборок данных.

«Как мы все знаем, речь изобилует вариациями. Разные люди произносят одно и то же слово в разных контекстах с различной продолжительностью, амплитудой, тоном и так далее. Помимо лингвистического (фонетического) содержания, речь несет в себе множество информации, раскрывающей эмоциональное состояние говорящего, его идентификацию (пол, возраст, этническая принадлежность) личность и многое другое, – пояснили авторы. – Насколько нам известно, наш метод является первым подходом к повышению производительности с точки зрения обучения представлению аудио».

В основе предлагаемой ими методики лежит вариационный автоэнкодер (VAE), который изучает скрытые представления. Входящие аудиопоследовательности делятся VAE на различные представления, которые кодируют контент, эмоции и другие факторы вариаций. На основе входящего аудио из представления распределения выбирается последовательность представлений контента, которая вместе с входящими изображениями лица подается в видеогенератор для анимации лица.

Исследователи получили три набора данных для обучения и тестирования VAE: GRID, аудиовизуальный корпус, содержащий 1000 записей в каждом из 34 говорящих, CREMA-D, который состоит из 7 442 клипов от 91 этнически разнообразных актеров и LRS3, база данных из более чем 100 тысяч произносимых предложений из видео TED. Они подали GRID и CREMA-D в модель, чтобы научить ее разделять фонетические и эмоциональные представления, а затем оценили качество сгенерированных видео, используя пару количественных метрик, пиковое отношение сигнал/шум (PSNR) и индекс структурного сходства (SSIM).

Команда уверена, что их подход с точки зрения производительности находится на одном уровне со всеми показателями с другими методами для чистых, нейтральных речевых высказываний. Более того, они отмечают, что он способен работать последовательно по всему эмоциональному спектру и совместим со всеми современными подходами к генерации анимации.

«Наш подход к обучаемым приоритетам, зависящим от вариаций, расширяется на другие речевые факторы, такие как личность и пол, которые могут быть изучены в рамках будущей работы. Мы проверяем нашу модель, тестируя шумовые и эмоциональные аудиосэмплы, и показываем, что наш подход значительно превосходит современное состояние при наличии таких вариаций звука», – написали авторы.

Оставьте свой комментарий