Skip to content

Latest commit

 

History

History
17 lines (11 loc) · 1.38 KB

readme.md

File metadata and controls

17 lines (11 loc) · 1.38 KB

Avaliação de Modelos para Melhoramento de Sinais de Fala Usando o Conjunto de Dados NTCD-TIMIT

Autores: Augusto Cesar Becker, Gabriel Saatkamp Lazaretti, Rafael Rodrigo Pertum, Eduardo Vinícius Kuhn e Rui Seara

Dataset: NTCD-TIMIT

Resumo

Este trabalho visa avaliar o desempenho de modelos obtidos a partir das arquiteturas desenvolvidas por Park et al. [1] e Zhang et al. [2] para o melhoramento de sinais de fala. Especificamente, tais arquiteturas são aqui implementadas usando linguagem Python e a biblioteca TensorFlow, treinadas no mesmo conjunto de dados (público) e com hiperparâmetros adequadamente escolhidos, e os modelos obtidos são avaliados através de métricas padronizadas. Resultados de simulação mostram que ambos os modelos melhoraram a qualidade e inteligibilidade dos sinais de fala processados, independentemente do valor da SNR e das características do ruído.

Requisitos

  • Python 3.11.0
  • pip install -r utils/requirements.txt

Referências

[1] S. R. Park and J. Lee, “A fully convolutional neural network for speech enhancement,” vol. 1, pp. 1–6, Sep. 2016. arXiv: 1609.07132 [cs.LG].

[2] X. Zhang et al., “Low-delay speech enhancement using perceptually motivated target and loss,” in Proc. Int. Speech Communication Assoc. (INTERSPEECH), Brno, Czechia, Sep. 2021, pp. 2826–2830.