Передовые технологии ИИ для коррекции выступающего

Передовые технологии ИИ для коррекции выступающего

31 января 2023

Развитие алгоритмов искусственного интеллекта привело к появлению новых возможностей для оптимизации изображения во время видеоконференцсвязи, и теперь они позволяют оптимизировать не только процесс съемки, но и сам объект – выступающего. 

Применение в камерах технологий на базе ИИ для автоматического отслеживания спикеров, выбора оптимального ракурса и кадрирования сегодня является одним из актуальных трендов отрасли, поэтому продуктов с подобными инструментами на рынке с каждым днем становится все больше. Помимо них, можно встретить алгоритмы для автоматического подавления шумов, коррекции света и цветов, переключения между несколькими камерами для съемки общего или крупного плана, фокусировки на вновь пришедшем в помещение участнике встречи, размытия заднего фона, который помогает сфокусировать внимание на говорящем, и другие. 

Теперь же с помощью искусственного интеллекта разработчики предлагают производить коррекцию не только процесса съемки, но и изображения самого выступающего. Двумя перспективными технологиями в этой сфере являются автоматическое изменение направления взгляда и движений губ.

Автоматическая коррекция направления взгляда призвана сделать общение по видеоконференцсвязи более персональным. Так как зачастую люди, разговаривая с собеседником через систему ВКС, смотрят на экран, где выводится его изображение, то их взгляд направлен вниз, а не прямо в камеру. Исправить это и призвана новая технология. Она способна в реальном времени анализировать захватываемый видеопоток, определять куда смотрит человек и естественно заменять направление его взгляда. 

Подобную технологию под названием Eye Contact можно найти в представленной в начале этого года новой версии приложения для прямых трансляций Broadcast компании Nvidia, уже имеющего возможность интеграции с популярными ВКС-платформами, в ВКС-приложении FaceTime, доступном пользователям мобильных устройств Apple на базе операционной системы iOS 14 и выше, или в составе пакета интеллектуальных функций для проведения собраний, появление которого анонсировано Microsoft в Windows 11. И хотя неотрывный взгляд в камеру, по мнению ряда пользователей, может быть не всегда реалистичным и уместным, поэтому алгоритм будет более актуален для проведения онлайн-выступлений, да и к работе самого алгоритма пока есть претензии, скорее всего, в дальнейшем мы увидим его усовершенствование и более широкое распространение.

Технология автоматической коррекции движений губ подойдет для общения с собеседником через переводчика. Подобная разработка есть у компании Flawless – это ИИ-движок TrueSync. Он был создан для придания реалистичности фильмам с дублированным переводом, где мимика актеров не совпадает с произносимыми ими фразами, а затем нашел применение и для решения других задач, например, замены фраз после съемки, когда переснять сцену вновь по тем или иным причинам невозможно. Данный алгоритм пока недоступен для широкого использования, но, вполне возможно, в будущем он будет реализован, как дополнение к системам синхронного перевода и видеоконференцсвязи.

Подпишитесь на рассылку
и получайте популярные статьи, видео и кейсы за неделю в одном письме