Skip to content

Commit

Permalink
feat(uai): change menj resource to the latest
Browse files Browse the repository at this point in the history
Resource used to be the one from 2019 and was not updated.
  • Loading branch information
hacherix committed Dec 16, 2024
1 parent c81f0e0 commit 1fa9ee5
Show file tree
Hide file tree
Showing 3 changed files with 14 additions and 10 deletions.
8 changes: 7 additions & 1 deletion workflows/data_pipelines/uai/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,6 +5,12 @@
| Information | Valeur |
| -------- | -------- |
| Fichier source | `uai_dag.py` |
| Description | Ce traitement permet de récupérer différentes sources de données autour des établissements scolaires, les traite pour générer un fichier de synthèse complet. | Hebdomadaire |
| Description | Ce traitement permet de récupérer différentes sources de données autour des établissements scolaires, les traite pour générer un fichier de synthèse complet. |
| Fréquence | Quotidien |
| Données sources | [Annuaire de l'éducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)<br />[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)<br />[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) |
| Données de sorties | Minio |

Note:

Les jeux de données ONISEP et MENJ sont régulièrement écrasés par de nouvelles ressources au lieu d'être mises à jours.
Nous devons donc récupérer l'identifiant de la dernière ressource depuis la page dataset pour obtenir la dernière version.
12 changes: 5 additions & 7 deletions workflows/data_pipelines/uai/uai_config.py
Original file line number Diff line number Diff line change
Expand Up @@ -12,18 +12,16 @@
minio_path="uai",
file_name="uai",
files_to_download={
"menj": {
"url": f"{DATA_GOUV_BASE_URL}85aefd85-3025-400f-90ff-ccfd17ca588e",
"resource_id": "85aefd85-3025-400f-90ff-ccfd17ca588e",
"destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-menj-download.csv",
},
"mesr": {
"url": f"{DATA_GOUV_BASE_URL}bcc3229a-beb2-4077-a8d8-50a065dfbbfa",
"resource_id": "bcc3229a-beb2-4077-a8d8-50a065dfbbfa",
"destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-mesr-download.csv",
},
# Les ressources du JDD ONISEP sont régulièrements écrasés par de nouvelles ressources.
# On récupère doit donc à chaque fois retrouver le resource_id du dataset
"menj": {
"url": f"{DATAGOUV_URL}/api/1/datasets/5889d03fa3a72974cbf0d5b1",
"dataset_id": "5889d03fa3a72974cbf0d5b1",
"destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-menj-download.csv",
},
"onisep": {
"url": f"{DATAGOUV_URL}/api/1/datasets/5fa5e386afdaa6152360f323",
"dataset_id": "5fa5e386afdaa6152360f323",
Expand Down
4 changes: 2 additions & 2 deletions workflows/data_pipelines/uai/uai_processor.py
Original file line number Diff line number Diff line change
Expand Up @@ -29,9 +29,9 @@ def preprocess_data(self):
# menj
df_menj = pd.read_csv(
self.config.files_to_download["menj"]["destination"],
dtype=str,
dtype="string",
sep=";",
encoding="Latin-1",
# encoding="Latin-1",
)
df_menj = df_menj.rename(
columns={
Expand Down

0 comments on commit 1fa9ee5

Please sign in to comment.