Assicurati di avere le seguenti dipendenze installate sul tuo sistema:
- Python:
versione >= 3
- Installazione delle dipendenze:
- Senza Pipenv: Esegui
pip install -r requirements.txt
per installare le dipendenze elencate nel filerequirements.txt
. - Con Pipenv: Assicurati di avere Pipenv installato ed esegui
pipenv install
per creare un ambiente virtuale e installare le dipendenze dalPipfile
.
- Senza Pipenv: Esegui
python3 -m database
python3 main.py --file archive/2023_11.pdf
python3 main.py --folder archive
python3 main.py --export --export-dir export
-
Estrazione del testo con PyMuPDF: Utilizziamo PyMuPDF per cercare all'interno del documento i titoli delle sezioni di nostro interesse. Una volta identificate, estraiamo il range di pagine corrispondente a ciascuna sezione. Questo ci permette di lavorare solo con le parti del documento che ci interessano e facilita l'estrazione dei dati.
-
Estrazione delle tabelle con Camelot: Le pagine estratte nella fase precedente vengono poi analizzate con Camelot, una libreria specializzata nell'estrazione di tabelle da documenti PDF. Camelot trasforma le tabelle in DataFrame di pandas, rendendo i dati facilmente manipolabili con strumenti di analisi dati in Python.
-
Elaborazione dei dati: Una volta estratti, i dati vengono elaborati in base alla sezione di provenienza ed inseriti all'interno di un database.
I PDF originali sono archiviati in questa repository nella cartella archive/
, dove è presente anche il file index.csv
che contiene i link esterni ai documenti.
Nella cartella export/
sono invece disponibili i file CSV, divisi per regione e aggiornati al 31/07/2024.
Warning
La correttezza dei dati non è garantita.
This project is licensed under the GNU General Public License v3.0. For more details, see the LICENSE file.