O Google está desenvolvendo, já em fase final, um sistema de “deep learning” (máquinas aprendendo e tomando decisões precisas sozinhas, sem a necessidade de um programador) que permite isolar vozes em situações em que existem muitas pessoas falando ao mesmo tempo ou muito barulho no ambiente. Ou seja, “automaticamente”, como já acontece com a busca por imagens, por exemplo. Tudo feito por máquinas.
Veja algumas simulações abaixo.
Video Conferência
Debate Esportivo
Stand Up
Cafeteria Barulhenta
O Google ainda está estudando como a tecnologia poderá ser aproveitada, sendo que YouTube e Hangouts são dois produtos que obviamente se beneficiariam. Bastaria clicara no rosto da pessoa que você quer ouvir isolada do ambiente.
Outra aplicação possível seria fora das telas, como no Google Glass. Ou, fazendo a via inversa, no Google Home, para que ele reconheça a voz do dono com mais facilidade, mesmo com TV ou rádio ligados.
E, claro, as possibilidades para usos não tão nobres como bisbilhotar conversas alheias ou espionagens também não estão descartadas.
Enfim, é como se você tivesse um daqueles microfones de captação unidirecional (que só capta quem estiver exatamente à sua frente e não o entorno), só que sem precisar… do microfone.