Ce repo contient les fichiers de travail qui m'ont permis de construire un détecteur du tic de langage "du coup" à partir d'une captation audio réalisée via une page web, dans un navigateur.
J'ai présenté ce projet lors d'un "Dej'Tech" organisé par ma société Delia Technologies le 25 mars 2022, diffusé en direct sur LinkedIn et sur Youtube.
Les slides de cette présentation sont présents ici :
J'ai inclus ici mes 3 notebooks de travail, dont l'historique pourra témoigner des différentes pistes que j'ai pu étudier pour arriver au résultat présenté.
- du_coup.ipynb dans lequel j'ai testé plusieurs approches Tensorflow - la dernière version de ce notebook utilise du transfer learning basé sur le modèle Yamnet pour faire des prédictions sur 2 classes : "du coup" ou "pas du coup".
- du_coup_tf_lite.ipynb dans lequel j'ai fait des essais avec Tensorflow Lite - le modèle produit est paramétrer pour distinguer les "du coup" par rapport au "background" (un fond sonore) - mais je n'ai pas trop persévéré sur cette piste.
- du_coup_tfjs.ipynb est celui utilisant Tensorflow Lite que j'ai utilisé pour ma présentation.
Les notebooks mentionnés ci-dessus récupèrent les fichiers WAV en se connectant sur mon compte Google Drive qui contient les fichiers. Je mets les fichiers à disposition ici si vous souhaitez reproduire cette expérience, sachant que les fichiers du répertoire "unknown" sont issus du dataset Voxforge et que ces enregistrements sont sous licence GPL.
Les fichiers "metadata.json", "model.json" et les 2 fichiers ".bin" constituent le modèle Tensorflow.js qui est utilisé par les fichiers index.html & index.js pour lancer la détection.
Les fichiers codelab.html & codelab.js sont issus du codelab TensorFlow.js - Audio recognition using transfer learning permettant d'expérimenter avec le modèle Speech Commands à partir duquel j'ai réalisé le transfer learning pour ma détection de "du coup". De base, vous pouvez lui faire détecter les mots : "up", "down", "left", "right", "go", "stop", "yes", "no" ainsi que les chiffres de 0 à 9 en anglais ("zero" to "nine").