Introduction
Dans le cadre du cours "Python pour le Data Scientist/ pour l'économiste", il était question d'assimiler des connaissances dans la tenue d'études de machine learning à l'aide du Langage Python. Ce cours se solde par la réalisation en groupes de projets portant sur des thématiques diverses liées au monde de la Data. Pour notre part, il a été question de prédire le caractère frauduleux ou non des transactions bancaires. Ainsi, tout le long de se rapport, nous nous attelerons au traitement des données d'entrée et à la construction de modèles sophistiqués pour la prédiction de fraude.
Source des données
Les données proviennent du Challenge Kaggle: IEEE-CIS Fraud Detection. Ainsi, le challenge étant cloturé depuis 2019, les données sont accessibles dans le cadre de tout projet scolaire.
Intérêt et objectifs du projet
Ce sujet revêt un caractère intéressant étant donné que :
Il permet une application directe des acquis du cours; une confrontation à un sujet Kaggle dont la renommée est toute faite; un travail sur des données volumineuses (big data); fait référence au transactions bancaires, et donc entraine la mise en place d'un outil satisfaisant pouvant permettre de luttre contre les fraudes aujourd'hui. Comme objectifs, il a été question de :
explorer les données (statistiques descriptives et visualisations, ...) effectuer un pré-traitement des variables (valeurs manquantes, valeurs aberrantes, variables textuelles, ...) procéder à une sélection de variables optimales entrainer les différents modèles (logistiques, Random Forest, ....) tester les algorithmes comparer et conclure adopter une démarche verte, afin de se tourner vers des solutions moins gourmandes en énergie