-
Preprocess le dataset pour pouvoir y accéder simplement
- Déplacer les dossiers
- Faire une fonction qui va chercher audio + label dans le dataset
- Convertir les label au bon format : chaine d'id des lettres
-
Créer un data loader : https://towardsdatascience.com/audio-deep-learning-made-simple-sound-classification-step-by-step-cebc936bbe5
- Load audio + label
- Mettre au bon format : reéchantillonage à 16kHz + format stereo 2 channels
- Resize à une taille définie
- Audio augmentation (time shift)
- Convertir en spectrogramme
- SpecAugmentation
- MFCC ?
-
Implémenter le réseau de neurones
- Une convolution avec un grand stride sur le temps
- Reshape
- Des convolutions
- Couche BLSTM ou conformers
- Prédiction
-
Implémenter la loss CTC
-
Implémenter la metric WER
forked from HediRaz/SpeechRecognition
-
Notifications
You must be signed in to change notification settings - Fork 0
ThomasLEMERCIER/SpeechRecognition
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published
Languages
- Python 100.0%