Путь к пониманию речи и жестов: компьютерная модель сможет превратить сценарии фильма в анимацию

Путь к пониманию речи и жестов: компьютерная модель сможет превратить сценарии фильма в анимацию

Исследователи из Университета Карнеги-Меллона разработали компьютерную модель, которая может переводить текст, описывающий физические движения, непосредственно в простые компьютерные анимации, что является первым шагом к созданию фильмов прямо из сценариев.

Ученые сумели настроить компьютеры на понимание естественного языка и разработать серию физических поз для реалистичной анимации. Эти возможности могут также существовать в отдельных мирах, потому что связь между естественным языком и физическими позами отсутствует.

Луи-Филипп Моренси (Louis-Philippe Morency), доцент Института языковых технологий (LTI), Чайтанья Ахаджа (Chaitanya Ahuja), доктор философии LTI вместе со студентами работают над объединением этих миров, используя нейронную архитектуру, которую они называют Joint Language-to-Pose или JL2P. Модель JL2P позволяет объединять предложения и физические движения, чтобы узнать, как язык соотносится с действием, жестами и движением.

«Я думаю, что мы находимся на ранней стадии этого исследования, однако,с точки зрения моделирования, искусственного интеллекта и теории, это очень волнительный момент.  Мы говорим об анимации виртуальных персонажей. Эта связь между языком и жестами может быть применена также к роботам. Мы скажем личному роботу-помощнику, что мы хотим, чтобы он делал. Мы также можем, в конечном счете, пойти другим путем – используя эту связь между языком и анимацией, чтобы компьютер мог описать, что происходит в видео»,- отметил Моренси. 

Для создания JL2P Ахаджа использовал подход к учебному плану, который фокусируется на модели, сначала изучающей короткие, простые последовательности – «человек идет вперед», а затем более длинные, более сложные  – «человек шагает вперед, затем поворачивается и снова делает шаг вперед» или “человек прыгает через препятствие во время бега “.

Глаголы и наречия описывают действие и скорость / ускорение действия, а существительные и прилагательные описывают места и направления. По словам Ахаджи, конечной целью является анимация сложных последовательностей с несколькими действиями, происходящими одновременно или последовательно. Пока анимация использует фигурки.

«Синхронизация между частями тела очень важна. Каждый раз, когда вы двигаете ногами, вы также двигаете руками, туловищем и, возможно, головой. Анимации тела должны координировать эти различные компоненты, в то же время выполняя сложные действия. Это путь к лучшему пониманию речи и жестов», – подчеркнул Моренси. 

Университет Карнеги-Меллона анонсировал, что Чайтанья Ахаджа, доктор философии LTI, представит JL2P 19 сентября на Международной конференции по 3-D Vision в канадском городе Квебек.

Оставьте свой комментарий