Per la guida a come mettere su un server Qdrant consiglio di visualizzare il Quickstart messo a disposizione dal tool https://qdrant.tech/documentation/quickstart/.
Di seguito gli script presenti:
costanti.py
: contiene le costanti di progettocrea_collezione.py
: crea una collezione Qdrantelimina_collezione.py
: elimina una collezione Qdrantdownload_script.py
: scarica i PDF dei paper da arXiv sfruttando la loro Api pubblicadatabase.py
: embedda il contenuto dei PDF, insieme ai loro metadati su Qdrantquery.py
: effetua una query all'interno del database Qdrant e restituisce i documenti più similistats.py
: recupera i dettagli della collezione Qdrantrecupera_punti.py
: recupera il contenuto dei punti/vettori (consiglio comunque di sfruttare la dashboard offerta dal tool localhost:6333/dashboard)select_computer_science.py
: estrae dal dataset arXiv solo i paper a tema "computer science"
git clone https://github.com/AndreaCicca/arXiv-vettorizzazione
cd arXiv-vettorizzazione
git submodule init
git submodule update
cd flask-webserver
docker compose up -d --build