Доказывая превосходство на базовом уровне: ИИ генерирует комментарии к видеороликам Let’s Play

Доказывая превосходство на базовом уровне: ИИ генерирует комментарии к видеороликам Let’s Play

За последнее десятилетие игры Let’s Play стали гораздо популярнее. Феликс Кьельберг (Felix Kjellberg), более известный в сети под псевдонимом PewDiePie, теперь имеет более 100 миллионов подписчиков на YouTube благодаря своему контенту Let’s Play, где он играет в компьютерные игры и комментирует данный процесс. Согласно недавнему отчету, Let’s Play теперь может смело соревноваться с платным контентом HBO, Netflix, ESPN и Hulu, ведь количество его аудитории, просматривающей видео и трансляции, превосходит число пользователей конкурирующих платформ вместе взятых.

Однако для создания качественных видеороликов Let’s Play требуется время, большая часть которого посвящается написанию сценариев. Чтобы облегчить работу авторам, группа ученых из Технологического института Джорджии и Университета Альберты недавно исследовала систему искусственного интеллекта, способную автоматически генерировать комментарии или диалоги для видеороликов. 

«Let’s Plays в видеоиграх – относительно неисследованная область для экспериментального ИИ. Существует несколько причин, по которым Let’s Plays могут представлять интерес для исследователей Game AI.
Во-первых, часть комментария посвящена объяснению игры, имеющей отношение к генерации учебников, комментариям к игровому процессу и видению ИИ игр в целом.
Во-вторых, Let’s Plays сосредоточится на представлении привлекательных комментариев. Таким образом если мы сможем воспроизвести комментарий Let’s Play, то расширим эту работу, чтобы улучшить диалоги с NPC и системные подсказки. Наконец, Let’s Plays – это важные культурные артефакты, поскольку они являются основным способом взаимодействия многих людей с видеоиграми», – отмечают соавторы статьи. 

Сверточная нейронная сеть (CNN) – это архитектура ИИ, обычно применяемая для анализа визуальных изображений, обслуживаемых в качестве основы системы. Собраны три 25-минутных видео на YouTube, по одному – на трех популярных каналах Minecraft Let’s Play, и их соответствующие записи были извлечены для создания основы комментариев для ролика. Затем сделана разбивка на кадры со скоростью один кадр в секунду, и на каждый отдельный кадр – в общей сложности 4840, из которых 3600 – использовались для обучения, а оставшаяся часть – зарезервирована для тестирования и соединена с предложением, преобразующим в вектор (математическое представление) CNN для обработки и понимания.

Исследователи отмечают, что сгенерированные комментарии – не всегда последовательны и точны, но они доказывают превосходство на базовом уровне по трем количественным тестам. Что еще более важно – они демонстрируют сложность поставленной задачи, учитывая отсутствие у модели контекстных знаний.

«Мы ожидаем дальнейшего развития этой работы. Объединение в другие типы игр само по себе представляло бы уникальную проблему, поскольку контекст и комментарии сильно зависят от правил и дизайна конкретной игры. Тем не менее, надеемся расширить этот проект на другие популярные игры для Let’s Plays», – подчеркнули исследователи.

Оставьте свой комментарий