diff --git a/workflows/data_pipelines/uai/README.md b/workflows/data_pipelines/uai/README.md index e6c54f5f..473f3233 100644 --- a/workflows/data_pipelines/uai/README.md +++ b/workflows/data_pipelines/uai/README.md @@ -5,6 +5,12 @@ | Information | Valeur | | -------- | -------- | | Fichier source | `uai_dag.py` | -| Description | Ce traitement permet de récupérer différentes sources de données autour des établissements scolaires, les traite pour générer un fichier de synthèse complet. | Hebdomadaire | +| Description | Ce traitement permet de récupérer différentes sources de données autour des établissements scolaires, les traite pour générer un fichier de synthèse complet. | +| Fréquence | Quotidien | | Données sources | [Annuaire de l'éducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)
[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)
[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) | | Données de sorties | Minio | + +Note: + +Les jeux de données ONISEP et MENJ sont régulièrement écrasés par de nouvelles ressources au lieu d'être mises à jours. +Nous devons donc récupérer l'identifiant de la dernière ressource depuis la page dataset pour obtenir la dernière version. diff --git a/workflows/data_pipelines/uai/uai_config.py b/workflows/data_pipelines/uai/uai_config.py index f79f5fd4..8b5333ad 100644 --- a/workflows/data_pipelines/uai/uai_config.py +++ b/workflows/data_pipelines/uai/uai_config.py @@ -12,18 +12,16 @@ minio_path="uai", file_name="uai", files_to_download={ - "menj": { - "url": f"{DATA_GOUV_BASE_URL}85aefd85-3025-400f-90ff-ccfd17ca588e", - "resource_id": "85aefd85-3025-400f-90ff-ccfd17ca588e", - "destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-menj-download.csv", - }, "mesr": { "url": f"{DATA_GOUV_BASE_URL}bcc3229a-beb2-4077-a8d8-50a065dfbbfa", "resource_id": "bcc3229a-beb2-4077-a8d8-50a065dfbbfa", "destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-mesr-download.csv", }, - # Les ressources du JDD ONISEP sont régulièrements écrasés par de nouvelles ressources. - # On récupère doit donc à chaque fois retrouver le resource_id du dataset + "menj": { + "url": f"{DATAGOUV_URL}/api/1/datasets/5889d03fa3a72974cbf0d5b1", + "dataset_id": "5889d03fa3a72974cbf0d5b1", + "destination": f"{DataSourceConfig.base_tmp_folder}/uai/uai-menj-download.csv", + }, "onisep": { "url": f"{DATAGOUV_URL}/api/1/datasets/5fa5e386afdaa6152360f323", "dataset_id": "5fa5e386afdaa6152360f323", diff --git a/workflows/data_pipelines/uai/uai_processor.py b/workflows/data_pipelines/uai/uai_processor.py index f6f06c38..b95a97e5 100644 --- a/workflows/data_pipelines/uai/uai_processor.py +++ b/workflows/data_pipelines/uai/uai_processor.py @@ -29,9 +29,9 @@ def preprocess_data(self): # menj df_menj = pd.read_csv( self.config.files_to_download["menj"]["destination"], - dtype=str, + dtype="string", sep=";", - encoding="Latin-1", + # encoding="Latin-1", ) df_menj = df_menj.rename( columns={