data_2A

Ce projet a pour objectif de faire une analyse de sentiment sur des tweets pour effectuer une prédiction de type Positive ou Negative.

Table des matières

A. Webscraping de Twitter
B. Modélisation
C. Installation

A. Webscraping de Twitter

Le script download.py permet de télécharger le code HTML de tweets issus de plusieurs recherches (biden et trump dans notre cas) sur une date donnée.

⚠️ La fonction ne télécharge pas exaustivement l'ensemble des tweets sur la date données, mais seulement un échantillon dont la longueur dépend du paramètre nb_scroll.

Le paramètre pause_time détermine le temps avant d'effectuer un scroll. Il doit être adapté en fonction de la connexion Internet.

Le script download_multi.py effectue le webscraping en multithreading.

Le notebook parsing.ipynb créée un dataframe avec les tweets téléchargés.

B. Modélisation

Nous réalisons un apprentissage de type supervisé en utilisant la base Sentiment140 qui contient 1.6 millions de Tweets déjà catégorisés (Positive ou Negative).

1. Preprocessing

Le notebook preprocessing.ipynb effectue le preprocessing sur la base Sentiment140 et les tweets webscrapés.

Méthodes utilisées :

Count Vectorizer
TF-IDF
N-grams

2. Statistiques descriptives

Le notebook description.ipynb contient des statistiques descriptives sur la base Sentiment140 et les tweets webscrapés après preprocessing.

3. Modélisation

Logistic Regression : model-LR.ipynb
Gaussian/Multinomial Naive Bayes : model-NB.ipynb
Multinomial Naive Bayes Semi-Supervised : model-semi.ipynb
Neural Networks : model-NN.ipynb

4. Résultats

Le notebook model-semi.ipynb contient par ailleurs l'application finale du meilleur modèle sur l'ensemble des tweets webscrapés.

C. Installation

Installation de l'environnement d'exécution avec Anaconda

Cloner le répertoire puis exécuter à l'intérieur du répertoire :

conda env create

Lancement de JupyterLab ou Jupyter Notebook

Exécuter à l'intérieur du répertoire :

conda activate data-2A
jupyter lab

ou :

conda activate data-2A
jupyter notebook

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data_2A

Table des matières

A. Webscraping de Twitter

B. Modélisation

1. Preprocessing

2. Statistiques descriptives

3. Modélisation

4. Résultats

C. Installation

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 67 Commits
data		data
.gitignore		.gitignore
README.md		README.md
description.ipynb		description.ipynb
download.py		download.py
download_multi.py		download_multi.py
environment.yml		environment.yml
model-LR.ipynb		model-LR.ipynb
model-NB.ipynb		model-NB.ipynb
model-NN.ipynb		model-NN.ipynb
model-semi.ipynb		model-semi.ipynb
parsing.ipynb		parsing.ipynb
preprocessing.ipynb		preprocessing.ipynb
semi_supervised_naive_bayes.py		semi_supervised_naive_bayes.py

baptiste-pasquier/data_2A

Folders and files

Latest commit

History

Repository files navigation

data_2A

Table des matières

A. Webscraping de Twitter

B. Modélisation

1. Preprocessing

2. Statistiques descriptives

3. Modélisation

4. Résultats

C. Installation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages