Усовершенствовать общую точность описания изображений: новая задача для ИИ LinkedIn

Усовершенствовать общую точность описания изображений: новая задача для ИИ LinkedIn

Достаточно ли надежны современные технологии компьютерного зрения для создания текстовых описаний фотографий в разных сферах? Это вопрос  исследователи LinkedIn изучали в течение последних нескольких лет. Сегодня они подробно написали в блоге о решении, которое могло бы помочь в данном случае. Их многообещающие усилия были воплощены в инструменте, который добавляет предложенные альтернативные текстовые описания для изображений, автоматически загружаемых в LinkedIn, что удается с помощью платформы Microsoft Cognitive Services и уникального набора данных, полученных из LinkedIn.

«В настоящее время LinkedIn позволяет участникам вручную добавлять альтернативное текстовое описание при загрузке изображений через веб-интерфейс, однако, не все предпочитают использовать эту функцию. Чтобы поддержать наше видение, мы должны сделать мультимедийные материалы доступными для всех наших участников. Вот почему мы стремимся помочь улучшить доступность контента в LinkedIn», – отмечают  авторы статей Випин Гупта(Vipin Gupta),  Анант Санкар (Ananth Sankar) и Джйотсна Таплиял (Jyotsna Thapliyal).

Гупта и его коллеги указывают на многочисленные проблемы, связанные с задачей автоматического создания титров. Возможно, наиболее очевиден субъективный характер рассматриваемых титров. Лучшие из них требуют обширного опыта и знаний о различных объектах и ​​их атрибутах, а также информации, основанной на времени, которая помогает более точно идентифицировать изображенные действия.

Чтобы устранить эти препятствия, команда использовала API-анализа Cognitive Services, чтобы разработать функцию, которая генерирует альтернативные текстовые описания для фотографий, ранжированных по доверительному баллу. Затем они наняли людей- оценщиков, чтобы понять их эффективность, с помощью сверки баллов (полученных благодаря альтернативным текстовым описаниям, категориям и тегам) с метками, которые они сами написали.

API-интерфейс Microsoft распознавал группы людей, объекты, такие как газеты, и места, подобные метро, ​​довольно успешно. Однако первоначально он «боролся» с медиа-контентом  LinkedIn, содержащим изображения с профессиональным контекстом, такими как слайды, проекторы, выставки, конференции, семинары, плакаты, сертификаты, диаграммы и многое другое. Команда разработчиков решила эту проблему, оценив правильность существующих альтернативных текстовых описаний в LinkedIn, что помогло выявить пригодные для использования шаблоны, специфичные для качества заголовков изображений.

Выделив шаблоны, команда разработала мета-классификатор, который помогает отфильтровывать текстовые описания. Они «могут повредить опыту участника LinkedIn», в дополнение к модулю коррекции описания изображений, который идентифицирует и исправляет неправильные описания, содержащие такие слова, как «Снимок экрана». Это улучшенное автоматическое создание заголовков, по их словам, укрепило основу для созданных моделей мета-классификаторов, которые учитывают таксономию тегов, связанный словарь и дополнительный текст, связанный с сообщениями в канале LinkedIn.

«Добавление мультимедиа в канал LinkedIn затрагивает вопрос: является ли канал полностью доступным для всех участников? Например, может ли участник, имеющий инвалидность по зрению, по-прежнему получать удовольствие от мультимедиа в ленте? Может ли участник в области с ограниченной пропускной способностью, что способно помешать полной загрузке изображения, по-прежнему иметь полный опыт подачи? ИИ-специалисты LinkedIn продолжают создавать модели описания изображений для мультимедийного контента, характерного для платформы LinkedIn, чтобы усовершенствовать общую точность описания изображений», – отмечают Гупта и его коллеги.

Конечно, LinkedIn – не новичок в искусственном интеллекте. Функция «Рекомендуемые кандидаты» изучает критерии приема на работу для этой роли и автоматически отображает соответствующих кандидатов в отдельной вкладке. Ее  поисковая система, основанная на искусственном интеллекте, использует данные, которые пользователи публикуют в своих профилях, и, в результате поиска, создаются прогнозы для соискателей, наиболее подходящих вакансии. Действительно, LinkedIn в 2016 году изменила свой канал с обратного хронологического порядка на что-то более персонализированное, делая прогнозы на основе машинного обучения о том, чем пользователи хотели бы поделиться.

Оставьте свой комментарий