Ученые научились выделять из речи голоса собеседников

Ученые научились выделять из речи голоса собеседников

31 октября 2023

Команда исследователей из Вашингтонского университета разработала перспективную технологию для повышения конфиденциальности переговоров, которая позволяет гибко контролировать какие голоса будут записываться или транслироваться, а какие останутся приватными.

За последние несколько лет гибридные встречи стали одним из самых популярных форматов взаимодействия. Но всегда ли уместно, чтобы удаленные собеседники слышали то, о чем вы общаетесь между собой с присутствующими лично коллегами? Дополнительные проблемы могут создавать и посторонние голоса, иногда попадающие в аудиотракт, особенно при работе в офисах открытого типа. Раз и навсегда решить вопрос конфиденциальности вызвалась команда исследователей из Вашингтонского университета. Разработанная ей технология способна анализировать все имеющиеся в помещении звуки, определять какие из них являются речью, а затем гибко управлять тем, какие голоса будут в данный момент записываться/транслироваться, позволяя изолировать их по одному или комбинировать в группы.

В ее основе лежит группа миниатюрных роботов, названная создателями «акустический рой». Они снабжены микрофонами и способны самостоятельно распространяться от зарядного устройства по доступной для перемещения поверхности, например, столешнице стола. Поступающие со множества микрофонов сигналы анализируются программным обеспечением на базе ИИ, после чего оно формирует пространственную карту всех источников звука и их местоположения друг относительно друга. Имея точную информацию о них, система может аккуратно устранять из звукового тракта нежелательные звуки, не внося слышимых искажений в оставшиеся, или же изолировать выбранный источник, приглушая все остальные.   

Комментирует Туочао Чен, сотрудник Вашингтонского университета и один из разработчиков проекта

«Если один микрофон стоит на расстоянии полуметра от меня, а второй – на расстоянии метра, то мой голос быстрее достигнет мембраны микрофона, находящегося в полуметре. Если второй собеседник будет располагаться ближе ко второму микрофону, очевидно, что его голос быстрее захватит именно он. Созданные нами нейросети способны анализировать эти задержки, чтобы точнее вычленять из общего аудиопотока конкретные голоса, а также определять их положение в пространстве».

Продемонстрированный разработчиками прототип хорошо справляется со своей задачей, но имеет некоторые проблемы с задержкой, которые планируется решить в дальнейшем. В финале проекта команда планирует создать удобное портативное саморазвертывающееся решение для переговорных, конференц-залов и других схожих помещений.

Дополняет участвовавший в проекте докторант Вашингтонского университета Малек Итани:

«Наша разработка способна вывести конфиденциальность встреч на качественно новый уровень. С ней я могу просто прийти в помещение и сказать не записывай и не транслируй ничего около моего стола. После этого система создаст вокруг меня акустический купол высотой 0,9 метра, из которого звуки не будут попадать во вне. Или, если две группы людей разговаривают неподалеку друг от друга, и одна из них ведет трансляцию или запись, а вторая – приватную беседу, то можно задать так называемую «зону молчания» и ни одно слово из приватного диалога не будет записано или передано».

Подпишитесь на рассылку
и получайте популярные статьи, видео и кейсы за неделю в одном письме