Diga novamente? AI fornece a última palavra em áudio mais claro
Se você esteve ouvindo mais podcasts enquanto estava preso em casa este ano, você deve ter notado um efeito colateral do uptick em conversas virtuais: um declínio na qualidade de áudio. Entrevistas conduzidas por telefone ou vídeo chat muitas vezes incluem ruído de fundo, reverberação e distorção.
Agora, um novo método desenvolvido em parte por pesquisadores da Universidade de Princeton poderia melhorar a experiência auditiva na era COVID e mais além. Usando uma abordagem de inteligência artificial (IA) conhecida como aprendizagem profunda, a técnica pode transformar gravações de baixa qualidade da fala humana, aproximando-se da crocância e clareza de uma voz gravada em estúdio.
Enquanto outros métodos baseados em IA para melhorar as gravações de fala geralmente abordaram um único aspecto da qualidade de áudio, como filtrar o ruído de fundo ou remover a reverberação, este método é mais uma ferramenta tudo-em-um. Em última análise, os pesquisadores esperam aplicar sua estrutura para permitir o aprimoramento da fala totalmente automatizado e em tempo real.
"As abordagens anteriores têm se concentrado principalmente em melhorar a inteligibilidade da fala, mas elas podem tornar a experiência auditiva mais plana, de modo que a qualidade resultante não é tão boa para a audição", disse Jiaqi Su, estudante de pós-graduação em ciência da computação e autor principal de um artigo descrevendo o método, que os pesquisadores chamam de HiFi-GAN.
O HiFi-GAN utiliza redes neurais artificiais, ferramentas-chave de aprendizado profundo que imitam a arquitetura interconectada dos neurônios biológicos. Neste sistema, duas redes separadas competem para melhorar a qualidade de áudio. Uma rede, chamada de gerador, produz gravações limpas de fala. A outra rede, chamada de discriminador, analisa as gravações para tentar determinar se são gravações de qualidade real de estúdio ou de áudio que foram limpas pelo gerador. A competição entre estas redes adversas generativas (GANs) melhora a capacidade do método de produzir áudio claro.
As redes geradoras e discriminatórias se envolvem em uma espécie de corrida armamentista. "O trabalho do gerador é tentar enganar o discriminador", disse o coautor Adam Finkelstein, professor de ciência da computação. "Os dois se levantam, cada um se tornando cada vez mais eficaz durante o treinamento". Quando esse processo estiver completo, você pode jogar fora o discriminador e o que você tem é um gerador fantástico".
Para avaliar as gravações geradas pelo HiFi-GAN, os pesquisadores utilizaram várias medidas objetivas de qualidade de áudio. Eles também recorreram à plataforma de crowdsourcing Amazon Mechanical Turk para coletar julgamentos subjetivos dos ouvintes humanos, que classificaram os resultados do HiFi-GAN e os de outros algoritmos de melhoria da qualidade de áudio. Em 28.000 audiências de gravações na Amazon Mechanical Turk, o HiFi-GAN obteve pontuação superior a cinco outros métodos de melhoria da qualidade de áudio.
"A questão que observamos comumente em experimentos é que as métricas objetivas não se correlacionam totalmente com a percepção humana, portanto é muito possível que seu método obtenha uma pontuação mais alta, mas na verdade produz uma experiência auditiva pior. É por isso que também realizamos avaliações subjetivas", disse Su.
Em trabalho relacionado, o grupo Finkelstein e outros desenvolveram uma métrica objetiva para detectar e quantificar diferenças sutis nas gravações de áudio que são perceptíveis para o ouvido humano, mas que têm sido um desafio para os algoritmos de IA lidar. A métrica, que é treinada em cerca de 55.000 julgamentos humanos coletados na Amazon Mechanical Turk, poderia impulsionar o desempenho de melhoradores de qualidade de áudio como o HiFi-GAN, bem como ajudar mais amplamente a avaliação de métodos de aprendizado profundo para o processamento de gravações de áudio.
Comentários
Postar um comentário