A pandemia de COVID-19 acelerou a transição para modalidades de trabalho e ensino remoto, intensificando a necessidade de ferramentas que garantam a qualidade das interações virtuais. Nesse contexto, a eliminação de ruídos em serviços de comunicação online tornou-se essencial para assegurar a clareza e a inteligibilidade da fala, otimizando a experiência do usuário e aumentando a produtividade em diversas atividades. A complexidade dos sinais de áudio e a presença de múltiplas fontes sonoras em ambientes reais representam desafios significativos para a compreensão da fala. Atualmente, as principais abordagens para cancelar o ruído são o cancelamento passivo, que cria uma barreira física contra os sons, e o cancelamento de ruído ativo (ANC), que gera ondas sonoras inversas ao ruído para anulá-lo. No entanto, essas técnicas apresentam limitações ao lidar com sons não estacionários, ou seja, sons que variam ao longo do tempo, como a voz humana. Um sistema de cancelamento de ruído em tempo real busca superar essas limitações, filtrando sons indesejados e preservando a fala de forma eficiente. Ao realizar a separação de fontes sonoras, o sistema diferencia o ruído do sinal de fala, permitindo que os usuários se concentrem no conteúdo da mensagem, mesmo em ambientes barulhentos, contribuindo para uma comunicação mais clara e eficaz. Visando isso, esta pesquisa tem como objetivo desenvolver um software que utiliza inteligência artificial para aprender mapeamentos complexos e não lineares entre sinais de fala limpos e ruidosos, por meio da análise de padrões em imagens que representam o áudio. A partir do banco de dados “Speech Activity Detection Datasets”, disponível na plataforma Kaggle, foram adquiridas 719 amostras de áudio, abrangendo vozes masculinas e femininas, com diferentes durações e gravadas em diversos ambientes, como restaurantes, ruas, trens, estações e locais sem ruído de fundo. Esses ambientes são identificados pelos rótulos “Babble”, “Car”, “Restaurant”, “Street”, “Train”, “Station”, “No Noise”. As amostras foram divididas em conjuntos de treinamento, validação e teste na proporção 80:10:10. O conjunto de treinamento compreende 80% dos dados e é usado para ajustar o modelo, enquanto 10% dos dados são destinados à validação, que verifica o desempenho do modelo durante o treinamento e ajuda a escolher o melhor modelo, com base na menor perda. Os 10% restantes são reservados para teste, consistindo em dados que o modelo nunca viu antes, utilizados para avaliar seu desempenho em situações novas. Os áudios são transformados em tensores e formas de onda, aplicando-se a Transformada de Fourier de Curta Duração (STFT) para calcular o espectrograma, uma representação tridimensional do áudio que abrange tempo, frequência e intensidade. A rede neural convolucional (CNN) recebe um espectrograma contendo a mistura de fala e ruído como entrada, e seu alvo é outro espectrograma contendo apenas a voz. A camada de convolução da CNN aplica filtros (kernels) à entrada, como o espectrograma, para detectar padrões locais e transformá-los em mapas de características. A camada de pooling reduz a dimensão espacial desses mapas, resumindo regiões pequenas ao pegar o valor máximo (max pooling) ou a média (average pooling), o que diminui a quantidade de parâmetros e computação, evitando o sobreajuste. Além dessas, foram utilizadas camadas dense e dropout para melhorar a generalização do modelo. Após a análise dos resultados, o índice de acerto foi de 30%, indicando que o modelo possui baixa eficiência. Portanto, ajustes adicionais são necessários para aprimorar o desempenho do sistema e torná-lo eficaz no cancelamento de ruídos.
Palavras chave: Voz. Ruído. CNN. Espectrograma.