BUL Insight

Elaborazione e archiviazione dei dati di avanzamento del piano nazionale italiano per la Banda Ultralarga (piano BUL) nelle aree bianche

Requisiti

Assicurati di avere le seguenti dipendenze installate sul tuo sistema:

Python: versione >= 3
Installazione delle dipendenze:
- Senza Pipenv: Esegui pip install -r requirements.txt per installare le dipendenze elencate nel file requirements.txt.
- Con Pipenv: Assicurati di avere Pipenv installato ed esegui pipenv install per creare un ambiente virtuale e installare le dipendenze dal Pipfile.

Utilizzo

Creare e inizializzare il database:

python3 -m database

Eaborare un singolo file:

python3 main.py --file archive/2023_11.pdf

Elaborare tutti i file in una cartella:

python3 main.py --folder archive

Esportare i dati elaborati:

python3 main.py --export --export-dir export

Come funziona

Estrazione del testo con PyMuPDF: Utilizziamo PyMuPDF per cercare all'interno del documento i titoli delle sezioni di nostro interesse. Una volta identificate, estraiamo il range di pagine corrispondente a ciascuna sezione. Questo ci permette di lavorare solo con le parti del documento che ci interessano e facilita l'estrazione dei dati.
Estrazione delle tabelle con Camelot: Le pagine estratte nella fase precedente vengono poi analizzate con Camelot, una libreria specializzata nell'estrazione di tabelle da documenti PDF. Camelot trasforma le tabelle in DataFrame di pandas, rendendo i dati facilmente manipolabili con strumenti di analisi dati in Python.
Elaborazione dei dati: Una volta estratti, i dati vengono elaborati in base alla sezione di provenienza ed inseriti all'interno di un database.

Archiviazione e Accesso ai Dati

I PDF originali sono archiviati in questa repository nella cartella archive/, dove è presente anche il file index.csv che contiene i link esterni ai documenti.

Nella cartella export/ sono invece disponibili i file CSV, divisi per regione e aggiornati al 31/07/2024.

Warning

La correttezza dei dati non è garantita.

Fonte dei dati

Notizie Banda Ultralarga
Archivio News Infratel Italia

License

This project is licensed under the GNU General Public License v3.0. For more details, see the LICENSE file.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

BUL Insight

Requisiti

Utilizzo

Creare e inizializzare il database:

Eaborare un singolo file:

Elaborare tutti i file in una cartella:

Esportare i dati elaborati:

Come funziona

Archiviazione e Accesso ai Dati

Fonte dei dati

License

Files

README.md

Latest commit

History

README.md

File metadata and controls

BUL Insight

Requisiti

Utilizzo

Creare e inizializzare il database:

Eaborare un singolo file:

Elaborare tutti i file in una cartella:

Esportare i dati elaborati:

Come funziona

Archiviazione e Accesso ai Dati

Fonte dei dati

License