Skip to content

Analyse de sentiment sur Twitter lors de l'élection présidentielle américaine de 2020

Notifications You must be signed in to change notification settings

baptiste-pasquier/data_2A

Repository files navigation

data_2A

Ce projet a pour objectif de faire une analyse de sentiment sur des tweets pour effectuer une prédiction de type Positive ou Negative.

Table des matières

A. Webscraping de Twitter

Le script download.py permet de télécharger le code HTML de tweets issus de plusieurs recherches (biden et trump dans notre cas) sur une date donnée.

⚠️ La fonction ne télécharge pas exaustivement l'ensemble des tweets sur la date données, mais seulement un échantillon dont la longueur dépend du paramètre nb_scroll.

Le paramètre pause_time détermine le temps avant d'effectuer un scroll. Il doit être adapté en fonction de la connexion Internet.

Le script download_multi.py effectue le webscraping en multithreading.

Le notebook parsing.ipynb créée un dataframe avec les tweets téléchargés.

B. Modélisation

Nous réalisons un apprentissage de type supervisé en utilisant la base Sentiment140 qui contient 1.6 millions de Tweets déjà catégorisés (Positive ou Negative).

1. Preprocessing

Le notebook preprocessing.ipynb effectue le preprocessing sur la base Sentiment140 et les tweets webscrapés.

Méthodes utilisées :

  • Count Vectorizer
  • TF-IDF
  • N-grams

2. Statistiques descriptives

Le notebook description.ipynb contient des statistiques descriptives sur la base Sentiment140 et les tweets webscrapés après preprocessing.

3. Modélisation

4. Résultats

Le notebook model-semi.ipynb contient par ailleurs l'application finale du meilleur modèle sur l'ensemble des tweets webscrapés.

C. Installation

  • Installation de l'environnement d'exécution avec Anaconda

Cloner le répertoire puis exécuter à l'intérieur du répertoire :

conda env create
  • Lancement de JupyterLab ou Jupyter Notebook

Exécuter à l'intérieur du répertoire :

conda activate data-2A
jupyter lab

ou :

conda activate data-2A
jupyter notebook

About

Analyse de sentiment sur Twitter lors de l'élection présidentielle américaine de 2020

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published