Ce projet a pour objectif de vous permettre de mettre en pratique vos compétences en Python, analyse de données, nettoyage, et en statistiques. Une attention particulière est requise pour assurer une qualité maximale des éléments statistiques (précaution sur les conclusions, formulation d'hypothèses et leur vérification, choix de modèles appropriés).
j'ai travaillé sur des données relatives à l'enseignement secondaire (collège). Les données sont disponibles sur le site du gouvernement : Données des collèges.
Il est recommandé d'explorer les données dans un premier temps directement sur leur site.
-
Certains collèges ont-ils davantage de décrochages scolaires que d'autres ?
(réduction du nombre d'élèves entre la 6e et la 3e) -
Cette tendance a-t-elle un lien avec la taille du collège ?
(volume d'étudiants) -
Est-ce la même conclusion pour les garçons que pour les filles ?
-
Est-ce que le constat change en fonction de la région ?
-
Y a-t-il un lien avec le fait d'être en collège public ou privé ?
- Évaluer les corrélations via des tests statistiques.
- Bien vérifier les hypothèses des tests et des modèles.
- Assurer une analyse rigoureuse et critique pour éviter toute conclusion hâtive.
- Python : pour l'analyse des données et le nettoyage.
- Bibliothèques Python : pandas, numpy, scipy, statsmodels, matplotlib, seaborn.
- Jupyter Notebook : pour documenter et présenter votre analyse de manière interactive.
- Dossier
data/
: Contiendra les jeux de données nécessaires pour le projet.
- Clonez le dépôt du projet.
- Téléchargez les données depuis ce lien.
- Placez les données dans le dossier
data/
. - Ouvrez un notebook Jupyter et commencez votre analyse !
Ce projet a été réalisé par :