20 000 профессионалов proAV > 1500 компаний > 570 городов > 6 стран ближнего зарубежья > 1 сообщество

Присоединяйтесь!

Подписка на дайджест
Рубрикатор новостей

Microsoft показала как сделать микрофонный массив из смартфонов

23 Сентября 2019

microsoft-pokazala-kak-sdelat-mikrofonnyy-massiv-iz-smartfonov-1.png

На прошедшей с 15 по 19 сентября в Австрии 20 ежегодной конференций Международной ассоциации речевой коммуникации Interspeech 2019 компания Microsoft продемонстрировала одну из последних разработок своего научно-исследовательского отдела Microsoft Research, выступив с докладом «Транскрибация собраний с использованием асинхронных удаленных микрофонов».

Interspeech является крупнейшей мировой конференцией, освещающей технологии обработки речи, ежегодно собирающей свыше 2000 профильных экспертов из разных стран. В ее рамках проводятся выступления ведущих специалистов отрасли, семинары, обучающие программы и множество других интересных событий. Естественно, конференция Interspeech - отличная площадка для демонстрации новейших технологий и разработок, чем не преминула воспользоваться Microsoft, представив экспертному сообществу результаты работы над своим проектом Project Denmark.

Основная концепция Project Denmark - объединение множества микрофонов потребительского уровня, встроенных в обычные смартфоны, ноутбуки и планшеты, в облачный микрофонный массив с последующей транскрибацией полученных аудиосигналов в текстовую форму. Это позволит участникам собраний и конференций без необходимости использования вспомогательного оборудования или привлечения персонала получить полноценную текстовую запись переговоров, производимую системой в автоматическом режиме. Причем запись может производиться даже на языке, отличном от языка говорящего. Все, что для этого потребуется - это смартфон, ноутбук или планшет и подключение к интернету. Звучит многообещающе, но как это будет работать на практике?

Несмотря на то, что концепция звучит довольно просто, для ее эффективной работы разработчикам пришлось решить множество технических проблем. Например, используемые в такой конфигурации микрофоны могут иметь разное качество и уровень громкости, поэтому полученные с их помощью речевые сигналы будут существенно различаться. Неизвестно и точное расположение самих смартфонов. Все эти причины делают согласованную консолидацию информационных потоков, поступающих с нескольких независимых устройств, намного сложнее, чем может показаться на первый взгляд.

Для решения этих задач Microsoft задействовала свое облако Azure и возможности искусственного интеллекта. С помощью технологии так называемого слепого формирования луча система выравнивает характеристики сигналов, объединяет их в единый поток и отправляет не сервер. Слепое формирование подразумевает, что формирование луча осуществляется не на основе данных о микрофонах и их расположении, которые в данной ситуации отсутствуют, а вычисляется посредством анализа поступающих сигналов специальным алгоритмом, основанным на нейронных сетях. Переданные на сервер аудиоданные транскрибируются с помощью технологий распознавания речи Azure Speech, после чего производится диаризация, раздельная запись текстовой информации для каждого из докладчиков и отправка итоговых файлов участникам собрания, которые, в свою очередь, могут оставить их для личного пользования или поделиться с коллегами.

В случае необходимости получения текстовых данных на другом языке транскрибированная информация дополнительно поступает в сервис Microsoft Translator, а затем сохраняется в файл. Разработчик заявляет, что система способна работать с любым количеством пользователей и ограничение накладывает лишь количество используемых микрофонов. Проведенные тестирования технологии показали высокую точность распознавания: всего 3% ошибок от общего количества слов при транскрибации речи одного говорящего и 22,3% при разговоре семи человек одновременно. Для повышения точности работы Microsoft предлагает организациям создавать собственные пользовательские речевые модели, которые будут формироваться на основе анализа данных их сотрудников, пользующихся Office 365.


Читайте АВ Клуб в Telegram

Источник: www.avclub.pro
Видео
Вебинар "Решения d&b audiotechnik в посткризисном мире"
Вебинар "Обучение специалистов по визуальным решениям Panasonic"
Все видео
Правила съемок: метод стрима. За миллионом фолловеров - сюда! Правила съемок: метод стрима. За миллионом фолловеров - сюда!
Число прямых трансляций в сети переживают бум - это факт. Но что именно нужно учитывать, чтобы тренд начал работать на вас?
ViewSonic ViewBoard – интерактивные панели для любых задач ViewSonic ViewBoard – интерактивные панели для любых задач
Александр Фролов, менеджер по продукции ViewSonic, рассказывает о предлагаемом компанией ассортименте интерактивных панелей.
Поддерживаем командный дух при удаленной работе: рецепт BenQ Поддерживаем командный дух при удаленной работе: рецепт BenQ
Работа из дома сильно влияет на эффективность реализации проектов, в которых заняты несколько исполнителей.
Адаптируем бизнес под новые условия: рекомендации BenQ Адаптируем бизнес под новые условия: рекомендации BenQ
Сложившаяся эпидемиологическая ситуация препятствует производству и вынуждает бизнес приспосабливаться к новым условиям.
«Следующим этапом будет появление самовосстанавливающихся систем» «Следующим этапом будет появление самовосстанавливающихся систем»
Роб Смит, директор по продажам компании Shure, рассказывает о тенденциях, активное развитие которых ждет нас в ближайшее время.
«Мы предлагаем комплексные аппаратные решения для диспетчерских» «Мы предлагаем комплексные аппаратные решения для диспетчерских»
Специалисты ATEN рассказывают об ассортименте коммутаторов, KVM-консолей, док-станций и решений для захвата и вещания видео.
Все статьи
Масштабная ВКС-сеть Правительства Московской области Масштабная ВКС-сеть Правительства Московской области
Компания Unitsolutions на основе решений TrueConf создала для Правительства Московской области ВКС-сеть для 30 000 абонентов.
Дисплеи Absen преобразили центр разработок и инноваций Intel Дисплеи Absen преобразили центр разработок и инноваций Intel
Центр PKT1, призванный «самым умным зданием в мире», установил на фасаде крупнейший в Израиле наружный светодиодный экран.
Необычное настольное мэппинг-шоу в дубайском ресторане Meshico Необычное настольное мэппинг-шоу в дубайском ресторане Meshico
Компания Pulse при помощи проекторов Digital Projection реализовала мэппинг-шоу, разворачивающееся прямо на столах у посетителей.
Пространственное звучание на базе одного акустического элемента Пространственное звучание на базе одного акустического элемента
Компания Sound Technology развернула в лондонском Музее Науки систему пространственного звучания Holoplot.
Shure осуществляет техническую поддержку в штаб-квартире ООН Shure осуществляет техническую поддержку в штаб-квартире ООН
С 2009 Shure осуществляет оснащение и поддержку в проведении основных мероприятий штаб-квартиры ООН в Найроби.
450 громкоговорителей d&b audiotechnik меняют сложную акустику зала 450 громкоговорителей d&b audiotechnik меняют сложную акустику зала
Royal Albert Hall — это культовая площадка, играющая огромную роль в культуре и просвещении не только Великобритании.
Все кейсы
EVOKO: новое поколение системы бронирования коференц-залов
EVOKO: новое поколение системы бронирования коференц-залов
Evoko Liso – стильное и яркое устройство, которое существенно облегчает процесс бронирования переговорных комнат, русский язык, 4 полосы, А4.
DONVIEW: интерактивное оборудование
DONVIEW: интерактивное оборудование
Интерактивные доски, сенсорные панели, дисплеи с функциями записи и трансляции серии «Все в одном», документ-камеры, русский язык, 36 полос, А4.
Все файлы
Хотите получить классную картинку? Часть 2: цвет имеет значение
Сергей Дудников
“Сергей Дудников продолжает свой рассказ о том, как добиться более качественного изображения на сверхбольшом экране.”
Сергей Дудников
глава российского офиса Christie
Хотите получить классную картинку? Часть 1: арифметика разрешения
Сергей Дудников
“Сергей Дудников в публикации для портала АВ Клуба рассказывает, как добиться более качественного изображения на сверхбольшом экране.”
Сергей Дудников
глава российского офиса Christie
«Зачем платить за три чипа, если можно сделать то же на одном»
Эдуард Кимберг
“Самый яркий проектор в мире, обеспечивающий световой поток в 75 тысяч люмен, входит в нашу отдельную линейку.”
Эдуард Кимберг
менеджер по развитию бизнеса компании Barco на территории России и стран СНГ
«Наши комплексные решения - это то, о чем стоит говорить»
Прохоров Максим
“Наши партнеры и заказчики сами сформировали запрос на появление проекционной техники высокой яркости.”
Прохоров Максим
Менеджер по работе с партнерами в России и странах СНГ в компании NEC.
Все мнения