EnglishPortugueseSpanish

Inteligência Artificial no Aprimoramento de Fala em Tempo Real

Resumo do projeto

A pandemia de COVID-19 acelerou a transição para modalidades de trabalho e ensino remoto, intensificando a necessidade de ferramentas que garantam a qualidade das interações virtuais. Nesse contexto, a eliminação de ruídos em serviços de comunicação online tornou-se essencial para assegurar a clareza e a inteligibilidade da fala, otimizando a experiência do usuário e aumentando a produtividade em diversas atividades. A complexidade dos sinais de áudio e a presença de múltiplas fontes sonoras em ambientes reais representam desafios significativos para a compreensão da fala. Atualmente, as principais abordagens para cancelar o ruído são o cancelamento passivo, que cria uma barreira física contra os sons, e o cancelamento de ruído ativo (ANC), que gera ondas sonoras inversas ao ruído para anulá-lo. No entanto, essas técnicas apresentam limitações ao lidar com sons não estacionários, ou seja, sons que variam ao longo do tempo, como a voz humana. Um sistema de cancelamento de ruído em tempo real busca superar essas limitações, filtrando sons indesejados e preservando a fala de forma eficiente. Ao realizar a separação de fontes sonoras, o sistema diferencia o ruído do sinal de fala, permitindo que os usuários se concentrem no conteúdo da mensagem, mesmo em ambientes barulhentos, contribuindo para uma comunicação mais clara e eficaz. Visando isso, esta pesquisa tem como objetivo desenvolver um software que utiliza inteligência artificial para aprender mapeamentos complexos e não lineares entre sinais de fala limpos e ruidosos, por meio da análise de padrões em imagens que representam o áudio. A partir do banco de dados “Speech Activity Detection Datasets”, disponível na plataforma Kaggle, foram adquiridas 719 amostras de áudio, abrangendo vozes masculinas e femininas, com diferentes durações e gravadas em diversos ambientes, como restaurantes, ruas, trens, estações e locais sem ruído de fundo. Esses ambientes são identificados pelos rótulos “Babble”, “Car”, “Restaurant”, “Street”, “Train”, “Station”, “No Noise”. As amostras foram divididas em conjuntos de treinamento, validação e teste na proporção 80:10:10. O conjunto de treinamento compreende 80% dos dados e é usado para ajustar o modelo, enquanto 10% dos dados são destinados à validação, que verifica o desempenho do modelo durante o treinamento e ajuda a escolher o melhor modelo, com base na menor perda. Os 10% restantes são reservados para teste, consistindo em dados que o modelo nunca viu antes, utilizados para avaliar seu desempenho em situações novas. Os áudios são transformados em tensores e formas de onda, aplicando-se a Transformada de Fourier de Curta Duração (STFT) para calcular o espectrograma, uma representação tridimensional do áudio que abrange tempo, frequência e intensidade. A rede neural convolucional (CNN) recebe um espectrograma contendo a mistura de fala e ruído como entrada, e seu alvo é outro espectrograma contendo apenas a voz. A camada de convolução da CNN aplica filtros (kernels) à entrada, como o espectrograma, para detectar padrões locais e transformá-los em mapas de características. A camada de pooling reduz a dimensão espacial desses mapas, resumindo regiões pequenas ao pegar o valor máximo (max pooling) ou a média (average pooling), o que diminui a quantidade de parâmetros e computação, evitando o sobreajuste. Além dessas, foram utilizadas camadas dense e dropout para melhorar a generalização do modelo. Após a análise dos resultados, o índice de acerto foi de 30%, indicando que o modelo possui baixa eficiência. Portanto, ajustes adicionais são necessários para aprimorar o desempenho do sistema e torná-lo eficaz no cancelamento de ruídos. Palavras chave: Voz. Ruído. CNN. Espectrograma.

Alunos

Marina Hedlund Jardim
Rafael Djouquin Weber
- - - - - - - - - - - - - - - - - - - - - - - - -

Orientadores

Lucas Luis Gutkoski

Instituição

Fundação Escola Técnica Liberato Salzano Vieira da Cunha
Novo Hamburgo /
  Novo Hamburgo –  
  RS –
  Brasil

Deixe seu comentário

O que você achou deste projeto? Participe deixando seu comentário a seguir:

Subscribe
Notify of
guest
0 Comentários
Inline Feedbacks
View all comments

Alunos

Marina Hedlund Jardim
Rafael Djouquin Weber
- - - - - - - - - - - - - - - - - - - - - - - - -

Orientadores

Lucas Luis Gutkoski

Instituição

Fundação Escola Técnica Liberato Salzano Vieira da Cunha
  Novo Hamburgo –  
  RS –
  Brasil

Prêmios e Incentivos Educacionais Oferecidos

Áreas de pesquisa

Conheça os projetos que estão concorrendo em todas as áreas de pesquisa da Mostratec Virtual:

Biologia Celular e Molecular e Microbiologia
Bioquímica e Química
Ciências Ambientais
Ciências Animais e de Plantas
Ciências da Computação
Ciências Planetárias e Terrestres e Matemática e Física
Ciências da Saúde
Educação e Humanidades
Engenharia Ambiental e Sanitária
Engenharia e Materiais
Engenharia Elétrica
Engenharia Eletrônica
Engenharia Mecânica
História e Ciências Sociais

REALIZAÇÃO

PATROCÍNIO

APOIO

MOSTRATEC Virtual

Mostra Internacional de Ciência e Tecnologia
Mostra Brasileira de Ciência e Tecnologia

Desenvolvido por SiriusPrime
0
Clique para deixar seu comentário e participar!x
()
x

Premiação Júri Popular

Para a premiação do Júri Popular, só serão considerados válidos os votos únicos (um por usuário) e que forem realizados entre 0:00 de 22/10 às 23:59 de 24/10.

Teste do Perfil Empreendedor

Preencha os seus dados a seguir para realizar o seu teste: