20 000 профессионалов proAV > 1500 компаний > 570 городов > 6 стран ближнего зарубежья > 1 сообщество
Присоединяйтесь!
На прошедшей с 15 по 19 сентября в Австрии 20 ежегодной конференций Международной ассоциации речевой коммуникации Interspeech 2019 компания Microsoft продемонстрировала одну из последних разработок своего научно-исследовательского отдела Microsoft Research, выступив с докладом «Транскрибация собраний с использованием асинхронных удаленных микрофонов».
Interspeech является крупнейшей мировой конференцией, освещающей технологии обработки речи, ежегодно собирающей свыше 2000 профильных экспертов из разных стран. В ее рамках проводятся выступления ведущих специалистов отрасли, семинары, обучающие программы и множество других интересных событий. Естественно, конференция Interspeech - отличная площадка для демонстрации новейших технологий и разработок, чем не преминула воспользоваться Microsoft, представив экспертному сообществу результаты работы над своим проектом Project Denmark.
Основная концепция Project Denmark - объединение множества микрофонов потребительского уровня, встроенных в обычные смартфоны, ноутбуки и планшеты, в облачный микрофонный массив с последующей транскрибацией полученных аудиосигналов в текстовую форму. Это позволит участникам собраний и конференций без необходимости использования вспомогательного оборудования или привлечения персонала получить полноценную текстовую запись переговоров, производимую системой в автоматическом режиме. Причем запись может производиться даже на языке, отличном от языка говорящего. Все, что для этого потребуется - это смартфон, ноутбук или планшет и подключение к интернету. Звучит многообещающе, но как это будет работать на практике?
Несмотря на то, что концепция звучит довольно просто, для ее эффективной работы разработчикам пришлось решить множество технических проблем. Например, используемые в такой конфигурации микрофоны могут иметь разное качество и уровень громкости, поэтому полученные с их помощью речевые сигналы будут существенно различаться. Неизвестно и точное расположение самих смартфонов. Все эти причины делают согласованную консолидацию информационных потоков, поступающих с нескольких независимых устройств, намного сложнее, чем может показаться на первый взгляд.
Для решения этих задач Microsoft задействовала свое облако Azure и возможности искусственного интеллекта. С помощью технологии так называемого слепого формирования луча система выравнивает характеристики сигналов, объединяет их в единый поток и отправляет не сервер. Слепое формирование подразумевает, что формирование луча осуществляется не на основе данных о микрофонах и их расположении, которые в данной ситуации отсутствуют, а вычисляется посредством анализа поступающих сигналов специальным алгоритмом, основанным на нейронных сетях. Переданные на сервер аудиоданные транскрибируются с помощью технологий распознавания речи Azure Speech, после чего производится диаризация, раздельная запись текстовой информации для каждого из докладчиков и отправка итоговых файлов участникам собрания, которые, в свою очередь, могут оставить их для личного пользования или поделиться с коллегами.
В случае необходимости получения текстовых данных на другом языке транскрибированная информация дополнительно поступает в сервис Microsoft Translator, а затем сохраняется в файл. Разработчик заявляет, что система способна работать с любым количеством пользователей и ограничение накладывает лишь количество используемых микрофонов. Проведенные тестирования технологии показали высокую точность распознавания: всего 3% ошибок от общего количества слов при транскрибации речи одного говорящего и 22,3% при разговоре семи человек одновременно. Для повышения точности работы Microsoft предлагает организациям создавать собственные пользовательские речевые модели, которые будут формироваться на основе анализа данных их сотрудников, пользующихся Office 365.
Читайте АВ Клуб в Telegram