Polytech Nantes - Mini-projet

Prérequis

L'ensemble de ce TP est à réaliser sur Linux (Debian et Ubuntu par exemple).

Part 0 - Setup

L'objectif de cette étape est de préparer l'environnement pour la réalisation de ce mini-projet.

La première étape consiste à cloner ce projet :

git clone https://github.com/polytech-nantes-puddi/tp.git

Nous allons ensuite procéder à l'installation des prérequis systèmes :

sudo apt update
sudo apt install openjdk-11-jdk
sudo apt install python3 python3-venv
python3 -m venv spark-env

Il est maintenant nécessaire d'activer l'environnement virtuel Python :

source spark-env/bin/activate

Nous procédons ensuite à l'installation des paquets python nécessaire au TP :

pip install --upgrade pip
pip install pyspark

Note : À chaque fois que vous ouvrirez un nouveau terminal, il sera nécessaire d'activer l'environnement virtuel Python avec la commande :

source spark-env/bin/activate

Part 1 - Download files

L'objectif de cette étape est de télécharger les fichiers de données nécessaires à la réalisation de ce mini-projet :

make part1

Cela devrait :

Télécharger les ZIP de données dans le répertoire dataset/zip/
Extraire les données des fichiers ZIP dans le répertoire dataset/raw/

Pour information, la documentation sur les données est disponible ici : http://data.gdeltproject.org/documentation/GDELT-Data_Format_Codebook.pdf.

Part 2 - Work count example

Exécuter la version WordCount Python :

python3 part2-wordcount-hamlet-python.py

Exécuter la version WordCount PySpark (version RDD) :
```
spark-submit part2-wordcount-hamlet-pyspark.py
```
Exécuter la version WordCount PySpark (version Dataframe) :
```
spark-submit part2-wordcount-hamlet-pyspark-2.py
```
Comparer les résultats.
Adapter les scripts ci-dessus pour filtrer les mots commençant par la lettre m.
Quelle différence sur votre traitement ?

Quelques documentations utiles :

Part 3 - Processing data

Adapter le script part3.py pour obtenir le top 10 des pays les plus pertinents dans l'actualité sur l'échantillon de données téléchargé.

Nous considérerons le code pays comme l'identifiant à trois lettres représenté par Actor1CountryCode (colonne 7), nous compterons la pertinence d'un événement en fonction de sa colonne NumMentions (colonne 31).

Cela revient à l'exercice WordCount où nous comptons les NumMentions de chaque événement par pays pour déterminer le Top 10.

Rappel concernant pour l'exécution :

spark-submit part3.py

Part 4 - Exposing data

Convertir les données en parquet :

spark-submit part4-convert-to-parquet.py

Adapter le script part4.py pour réaliser la même analyse que la partie précédente, mais à partir de la vue temporaire.

Rappel concernant pour l'exécution :

spark-submit part4.py

Quelques documentations utiles :

Rendu

L'évaluation se portera sur :

Le script et le résultat (copie d'écran) de la partie 2
Les analyses de la partie 2
Le script et le résultat (copie d'écran) de la partie 3
Le script et le résultat (copie d'écran) de la partie 4
L'analyse technique de la requête print(spark.sql("SELECT count(1) FROM gdelt").explain()) présente dans le script de la partie 4
Une analyse fonctionnelle des données étudiées GDELT sur une problématique identifiée (bonus)

Quelques idées de sujets d'analyse (vous pouvez choisir votre propre sujet) :

Comparez les religions, les reportages sont-ils biaisés pour certaines religions (voir le paramètre tone).
Quelle influence a eu un pays par rapport à un autre (en termes de comptage pur).
Top des organisations (voir le paramètre Actor1KnownGroupCode) mentionnées par mois.

Pour votre analyse, les données référentielles sur notre échantillon de données sont disponibles ici :

https://github.com/carrillo/Gdelt/tree/master/resources/staticTables

Toujours pour votre analyse, voici une page concernant les jointures :

https://luminousmen.com/post/introduction-to-pyspark-join-types

Format du rendu attendu

Scripts et code source
Compte rendu au format PDF

Sujet pour le plaisir

Récupération des données

make bonus

Exécution du code sample

python3 bonus-sample.py

Questions

Quelle est la station avec le plus de mesures en 2022 ?
Quelle est la mesure moyenne de Nitrites dans la station L'ERDRE A LA CHAPELLE SUR ERDRE ?
Quelle est la station ayant la plus haute température moyenne en 2019 ?
Quelle est la commune regroupant le plus de stations ?

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.vscode		.vscode
dataset/wordcount		dataset/wordcount
.gitignore		.gitignore
README.md		README.md
bonus-sample.py		bonus-sample.py
files.txt		files.txt
makefile		makefile
part2-wordcount-hamlet-pyspark-2.py		part2-wordcount-hamlet-pyspark-2.py
part2-wordcount-hamlet-pyspark.py		part2-wordcount-hamlet-pyspark.py
part2-wordcount-hamlet-python.py		part2-wordcount-hamlet-python.py
part3.py		part3.py
part4-convert-to-parquet.py		part4-convert-to-parquet.py
part4.py		part4.py
part5.1.py		part5.1.py
part6-wordcount-hamlet-python-question-1.py		part6-wordcount-hamlet-python-question-1.py
part6-wordcount-hamlet-python-question-2.py		part6-wordcount-hamlet-python-question-2.py
part6-wordcount-hamlet-python-question-3.py		part6-wordcount-hamlet-python-question-3.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Polytech Nantes - Mini-projet

Prérequis

Part 0 - Setup

Part 1 - Download files

Part 2 - Work count example

Part 3 - Processing data

Part 4 - Exposing data

Rendu

Format du rendu attendu

Sujet pour le plaisir

Récupération des données

Exécution du code sample

Questions

About

Releases

Packages

Languages

hugo-daclon/TP-Big-Data

Folders and files

Latest commit

History

Repository files navigation

Polytech Nantes - Mini-projet

Prérequis

Part 0 - Setup

Part 1 - Download files

Part 2 - Work count example

Part 3 - Processing data

Part 4 - Exposing data

Rendu

Format du rendu attendu

Sujet pour le plaisir

Récupération des données

Exécution du code sample

Questions

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages