Add BOPA (Asturias) in ETLS module #76

anajsana · 2024-03-13T16:33:31Z

This PR creates a new folder to extract and load BOPA docs in the ETLS module. Files include:

scrapper.py (WIP)
metadata.py (WIP)
README.md
defs.py
load.py (TBD)

Please note: Scrapper.py needs further iteration to successfully be integrated into the ETLS architecture. Right now, the scraper is storing the data with metadata tags in a JSON locally.

ntkog

Te paso la review @anajsana .
Cualquier duda, me dices :-)

ntkog · 2024-03-13T19:07:59Z

src/etls/bopa/metadata.py

En la medida de lo posible, cuantos más metadatos podamos sacar del boletín, más juego nos dará después para combinar datos. Si hay algún metadato que no se puede rellenar, porque no sea posible rellenarlo, se declara pero luego cuando se escrapea el documento, se pone como cadena vacía.

En este fichero, lo que solemos hacer es apoyarnos en pydantic para asegurarnos de que lo que vayamos a insertar en qdrant sea correcto, (que cada metadato tenga el tipo declarado aquí)

Para que luego podamos hacer búsquedas en Qdrant sin tener que añadir código de adaptación, lo ideal es que todas las colleciones, en la sección de metadatos tengan el mismo nombre.

Puedes consultar los nombres de los metadatos del ETL del BOE para hacerte una idea.

En este caso concreto, te propongo unos cambios de nombre( marcados en los comentarios).

Te pongo un pantallazo de referencia de una de las disposiciones del BOPA, y los datos que se pueden extraer:

ntkog · 2024-03-13T19:14:16Z

src/etls/bopa/metadata.py

+
+    # Metadata (TBD)
+
+    disposition_date: str


fecha_disposicion: str = ""

ntkog · 2024-03-13T19:14:41Z

src/etls/bopa/metadata.py

+    disposition_date: str
+    reference_number: str
+    section_name: str
+    department_name: str


departamento: str

ntkog · 2024-03-13T19:17:02Z

src/etls/bopa/metadata.py

+    # Metadata (TBD)
+
+    disposition_date: str
+    reference_number: str


numero_oficial: str = ""

ntkog · 2024-03-13T19:19:32Z

src/etls/bopa/metadata.py

+    reference_number: str
+    section_name: str
+    department_name: str
+    content: str


Este campo no es necesario aquí. El content se procesará como embedding y no lo incluímos en los metadatos.

ntkog · 2024-03-13T20:03:08Z

src/etls/bopa/scrapper.py

En este fichero, tenemos una serie de convenciones que no hemos documentado aún (sorry).

Te pongo de referencia el del BOCM

En scrapper.py hay que seguir la siguiente convención "no escrita":

tiene que haber una clase, en este caso BOPAScrapper que hereda de BaseScrapper

Esta clase implementa al menos dos métodos:

download_day

En este método, concretamente se saca una lista de los enlaces del sumario del día ( _list_links_day) y sobre cada uno de los enlaces, se llama a download_document

download_document

Este método se encarga de hacer la petición a la url que se le pasa como parámetro, para guardar en fichero temporal la parte de texto, extraer todos metadatos que recoge _extract_metadata

Load.py

Al tenerlo implementado así, luego hay un proceso jobs.py , que se encarga de ir llamando a cada uno de los etl's para hacer el scrapeo.

En el caso del BOCM, se implementa en load.py

Espero que te ayude la explicación.
En cualquier caso, si algo no ha quedado claro, avísame porfa.

ntkog · 2024-03-13T20:11:16Z

Una cosilla más:
En principio sólo hace falta escrapear las disposiciones generales (propias de Asturias Sección I) , y las de administración local (IV).

Las de Autoridades y Personal y las de otros Anuncios no las estamos recogiendo en otros boletines.

add bopa initial scrapper and metadata architecture

c93eeb8

ntkog requested changes Mar 13, 2024

View reviewed changes

ntkog mentioned this pull request Mar 18, 2024

Implementación del BOA (Comunidad Autónoma de Aragón) #79

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add BOPA (Asturias) in ETLS module #76

Add BOPA (Asturias) in ETLS module #76

anajsana commented Mar 13, 2024

ntkog left a comment

ntkog Mar 13, 2024

ntkog Mar 13, 2024

ntkog Mar 13, 2024

ntkog Mar 13, 2024

ntkog Mar 13, 2024 •

edited

Loading

ntkog Mar 13, 2024 •

edited

Loading

ntkog commented Mar 13, 2024

Add BOPA (Asturias) in ETLS module #76

Are you sure you want to change the base?

Add BOPA (Asturias) in ETLS module #76

Conversation

anajsana commented Mar 13, 2024

ntkog left a comment

Choose a reason for hiding this comment

ntkog Mar 13, 2024

Choose a reason for hiding this comment

ntkog Mar 13, 2024

Choose a reason for hiding this comment

ntkog Mar 13, 2024

Choose a reason for hiding this comment

ntkog Mar 13, 2024

Choose a reason for hiding this comment

ntkog Mar 13, 2024 • edited Loading

Choose a reason for hiding this comment

ntkog Mar 13, 2024 • edited Loading

Choose a reason for hiding this comment

download_day

download_document

Load.py

ntkog commented Mar 13, 2024

ntkog Mar 13, 2024 •

edited

Loading

ntkog Mar 13, 2024 •

edited

Loading