Skip to content

Commit

Permalink
chore: update README files
Browse files Browse the repository at this point in the history
  • Loading branch information
hacherix committed Jan 13, 2025
1 parent dccbc0d commit d9e0ff5
Show file tree
Hide file tree
Showing 16 changed files with 139 additions and 22 deletions.
24 changes: 16 additions & 8 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,17 +23,21 @@ ici 👉](https://annuaire-entreprises.data.gouv.fr/donnees/sources).

| Données | Administration responsable | Accès au jeu de données |
| ---------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Dénomination, Adresse, NAF, Forme juridique, ESS... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ |
| Dénomination, Adresse, Code NAF, Forme juridique... | `Insee` | https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ |
| Dirigeants | `INPI` | [FTP INPI](https://data.inpi.fr/content/editorial/Serveur_ftp_entreprises) |
| Liste des professionnels engagés en BIO | `Agence Bio` | https://www.data.gouv.fr/fr/datasets/professionnels-engages-en-bio/ |
| Liste des Entreprises RGE | `ADEME` | https://www.data.gouv.fr/fr/datasets/liste-des-entreprises-rge-1/ |
| Liste des entrepreneurs de spectacles vivants | `Ministère de la Culture` | https://www.data.gouv.fr/fr/datasets/declarations-des-entrepreneurs-de-spectacles-vivants/ |
| Liste des déclarations Egapro | `MTPEI` | https://www.data.gouv.fr/fr/datasets/index-egalite-professionnelle-f-h-des-entreprises-de-50-salaries-ou-plus/ |
| Liste des déclarations Egapro | `Ministère du travail` | [Index Egalité Professionnelle F/H](https://www.data.gouv.fr/fr/datasets/61a73dcfe3171089843587bf/) |
| Liste conventions collectives | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-des-conventions-collectives-par-entreprise-siret/ |
| Liste des organismes de formation | `Ministère du travail` | https://www.data.gouv.fr/fr/datasets/liste-publique-des-organismes-de-formation-l-6351-7-1-du-code-du-travail/ |
| Liste des établissements du domaine sanitaire et social (FINESS) | `Ministère des Solidarités et de la Santé` | https://www.data.gouv.fr/fr/datasets/finess-extraction-du-fichier-des-etablissements/ |
| Liste des organismes de formation | - `Ministère de l'Éducation Nationale et de la Jeunesse` <br />-`Ministère de l'Enseignement supérieur et de la Recherche`<br />-`Office national d'information sur les enseignements et les professions` | [Annuaire de l'éducation du MENJ](https://www.data.gouv.fr/fr/datasets/5889d03fa3a72974cbf0d5b1/)<br />[Principaux établissements d'enseignement supérieur du MESR](https://www.data.gouv.fr/fr/datasets/586dae5ea3a7290df6f4be88/)<br />[Idéo-Structures d'enseignement supérieur de l'ONISEP](https://www.data.gouv.fr/fr/datasets/5fa5e386afdaa6152360f323/) |
| Liste des élus d'une collectivité territoriale | `Ministère de l'Intérieur et des Outre-Mer` | https://www.data.gouv.fr/fr/datasets/repertoire-national-des-elus-1/ |
| Liste des bilans financiers | `INPI`<br />`Équipe Signaux Faibles` | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) |
| Liste des collectivités territoriales | `Direction générale des collectivités locales` | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)<br />[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)<br />[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) |
| Liste des entreprises de l'Économie Sociale et Solidaire (ESS) | `ESS France` | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) | |
| Liste des Structure d'Insertion par l'Activité Economique (SIAE) | `Le marché de l'inclusion` | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) | |


## Flow des données
Expand Down Expand Up @@ -63,22 +67,22 @@ flowchart TD
end
subgraph Workflow_SQLite["Workflow ETL"]
DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de
DB_MinIO@{ shape: lin-cyl, label: "Stockage des\ndonnées sur MinIO" } -->|DAG Airflow: Quotidien| DAG_SQLITE["Création de
la BDD SQLite"]
DAG_SQLITE --> SQLite_DB[(SQLite Database)]
SQLite_DB --> SQLITE_MinIO@{ shape: lin-cyl, label: "Stockage DBB\nsur MinIO" }
end
subgraph Indexation_Elasticsearch["Workflow Indexation"]
SQLITE_MinIO -->|DAG Airflow : Quotidien
déclenché par
SQLITE_MinIO -->|DAG Airflow : Quotidien
déclenché par
le workflow ETL| DAG_Elastic["Chunking & Indexation"]
DAG_Elastic --> Elastic_DB[(Index Elasticsearch)]
end
subgraph Snapshot_Workflow["Workflow Snapshot"]
Elastic_DB -->|DAG Airflow : Quotidien
déclenché par
Elastic_DB -->|DAG Airflow : Quotidien
déclenché par
le workflow Indexation| DAG_Snapshots["Création des Snapshots"]
DAG_Snapshots --> Snapshot1[(Snapshot 1)]
DAG_Snapshots --> Snapshot2[(Snapshot 2)]
Expand All @@ -87,9 +91,13 @@ flowchart TD
Snapshot1 --> API1["API de Recherche
d'entreprises : instance 1"]
Snapshot2 --> API2["API de Recherche
Snapshot2 --> API2["API de Recherche
d'entreprises : instance 2"]
Snapshot3 --> API3["API de Recherche
d'entreprises : instance 3"]
```

### Informations

Channel Tchap d'information : `https://matrix.to/#/#annuaire-entreprises:agent.dinum.tchap.gouv.fr`
3 changes: 1 addition & 2 deletions workflows/data_pipelines/agence_bio/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de constituer un stock sur les entreprises certifiées bio en France. |
| Fréquence | Quotidienne |
| Données sources | [API Professionnels Bio](https://api.gouv.fr/les-api/api-professionnels-bio) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
5 changes: 2 additions & 3 deletions workflows/data_pipelines/bilans_financiers/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de synthétiser les données publiées par l'équipe Signaux Faibles et Fiche Commune Entreprise. |
| Fréquence | Quotidienne |
| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d/) |
| Données sources | [Jeu de données INPI ratios financiers](https://www.data.gouv.fr/fr/datasets/63cb2e29b22886911440440d) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
21 changes: 21 additions & 0 deletions workflows/data_pipelines/colter/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# Documentation

## data_processing_collectivite_territoriale

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des collectivités territoriales. |
| Fréquence | Quotidienne |
| Données sources | [Comptes consolidés des régions](https://www.data.gouv.fr/fr/datasets/5f68c4ec9920494bf28021e3)<br />[Comptes consolidés des départements](https://www.data.gouv.fr/fr/datasets/5f68c4edc9ed7984245b654b)<br />[Table de correspondance Siren et code Insee des communes](https://www.data.gouv.fr/fr/datasets/630f5173873064dd369479b4) |
| Données de sorties | Minio |

## data_processing_collectivite_territoriale_elus

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des elus des collectivités territoriales. |
| Fréquence | Quotidienne |
| Données sources | [Conseillers régionaux<br />Conseillers départementaux<br />Conseillers municipaux<br />Conseillers communautaires](https://www.data.gouv.fr/fr/datasets/5c34c4d1634f4173183a64f1) |
| Données de sorties | Minio |
3 changes: 1 addition & 2 deletions workflows/data_pipelines/convcollective/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de synthétiser les données sur les convention collectives des établissements. |
| Fréquence | Quotidienne |
| Données sources | [ Liste des conventions collectives par entreprise (SIRET)](https://www.data.gouv.fr/fr/datasets/5e7201d522f2a43e9f736a9a/) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/egapro/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_egapro

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer l'index égalité professionnelle F/H des entreprises de plus de 250 salariés. |
| Fréquence | Quotidienne |
| Données sources | [Index Egalité Professionnelle F/H](https://www.data.gouv.fr/fr/datasets/61a73dcfe3171089843587bf/) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/ess_france/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_ess_france

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des entreprises de l'Économie Sociale et Solidaire (ESS). |
| Fréquence | Quotidienne |
| Données sources | [Liste des entreprises de l'ESS](https://www.data.gouv.fr/fr/datasets/646c8d45de96cc3428092c6b/) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/finess/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_finess

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer les établissements du domaine sanitaire et social. |
| Fréquence | Quotidienne |
| Données sources | [Extraction Finess des Etablissements](https://data.gouv.fr/fr/datasets/53699569a3a729239d2046eb) |
| Données de sorties | Minio |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/formation/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_organisme_formation

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des organismes déclarés auprès des prefectures. |
| Fréquence | Quotidienne |
| Données sources | [Liste publique des Organismes de Formation](https://dgefp.opendatasoft.com/explore/dataset/liste-publique-des-of-v2/information/) |
| Données de sorties | Minio |
5 changes: 2 additions & 3 deletions workflows/data_pipelines/marche_inclusion/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,9 +4,8 @@

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupèrer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer le type de Structure d'Insertion par l'Activité Economique (SIAE) de chaque établissement : EI, ACI, ETTI, AI, etc. |
| Fréquence | Quotidienne |
| Données sources | [API Le marché de l'inclusion](https://lemarche.inclusion.beta.gouv.fr/) |
| Données de sorties | Minio |
| Channel Tchap d'information | ~annuaire-entreprises-tech |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/rge/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_rge

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer la liste des entreprises RGE depuis l'API de l'ADEME. |
| Fréquence | Quotidienne |
| Données sources | [API de l'ADEME](https://data.ademe.fr/datasets/liste-des-entreprises-rge-2) |
| Données de sorties | Minio |
2 changes: 1 addition & 1 deletion workflows/data_pipelines/rne/flux/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@
| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Quotidien |
| Description | DAG Airflow permettant de récupérer le flux quotidien des données RNE depuis l'API. Le DAG récupère les données des SIREN modifiés depuis la dernière date de modification enregistrée dans les fichiers JSON stockés sur MinIO et jusqu'à la journée précédant l'exécution du DAG. Une fois récupérées, ces données sont sauvegardées sur une instance Minio. Ces fichiers sont par la suite utilisés pour générer le fichier flux dirigeants pour [l'annuaire des entreprises](https://annuaire-entreprises.data.gouv.fr). | Quotidienne |
| Données sources | API RNE INPI |
| Données de sorties | Fichiers json dans Minio |
| Channel Tchap d'information | ~annuaire-entreprises-monitoring |
11 changes: 11 additions & 0 deletions workflows/data_pipelines/sirene/flux/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
# Documentation

## data_processing_sirene_flux

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer le flux quotidien de la base SIRENE depuis l'API de l'INSEE. |
| Fréquence | Quotidienne |
| Données sources | [API SIRENE](https://api.insee.fr/api-sirene/3.11/) |
| Données de sorties | Minio |
15 changes: 15 additions & 0 deletions workflows/data_pipelines/sirene/stock/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
# Documentation

## data_processing_sirene_stock

| Information | Valeur |
| -------- | -------- |
| Fichier source | `dag.py` |
| Description | Ce traitement permet de récupérer les bases SIRENE de l'INSEE. |
| Fréquence | Quotidienne |
| Données sources | [Base SIRENE StockUniteLegale<br />Base SIRENE StockUniteLegaleHistorique<br />Base SIRENE StockEtablissementHistorique](https://www.data.gouv.fr/fr/datasets/5b7ffc618b4c4169d30727e0) |
| Données de sorties | Minio |

Note:

Le fichier StockEtablissement est récupéré indirectement dans le dag `extract_transform_load_db` via le retraitement fait par data.gouv.fr sur la [base SIRENE géolocalisée avec la Base d'Adresse Nationale (BAN)] (https://www.data.gouv.fr/fr/datasets/base-sirene-des-etablissements-siret-geolocalisee-avec-la-base-dadresse-nationale-ban/)
Loading

0 comments on commit d9e0ff5

Please sign in to comment.