Chi: Workshop coordinato da Silvio Peroni nel contesto dell'iniziatia Digital WHOmanities a cura degli studenti del corso di laurea internazionale di Digital Humanities and Digital Knowledge (DHDK) con il patrocinio del dipartimento d'eccellenza di Filologia Classica e Italianistica dell'Università di Bologna.
Che cosa: Questo breve workshop (45 minuti) vuole essere un'occasione per lavorare insieme relativamente all'analisi e generazione di nuovi contenuti per arginare le problematiche emerse dal collezionare e rilasciare dati citazionali aperti attinenti a studi accademici relativi ai coronavirus.
Quando: 18 maggio 2020, dalle 11:15 alle 12:00.
Dove: Da remoto, utilizzando la piattaforma Microsoft Teams.
Perché: Lo scopo del workshop è quello di introdurre, indirettamente, alcune pratiche e tecnologie volte e favorire la diffusione dei principi dell'Open Science e Open Access (si veda anche il seminario "Open Science e Open Access nelle Scienze (Umane, e non solo)") ai giovani studiosi.
La registrazione dell'intervista attinente ai temi del workshop è a disposizione in forma integrale su YouTube.
If I have seen further it is by standing on the shoulders of giants.
Isaac Newton, lettera a Robert Hooke, 1675
Una citazione bibliografica è il collegamento concettuale che intercorre tra un'opera citante e un'opera citata, istanziato includendo un riferimento bibliografico in bibliografia o in nota, o in un riferimento intratestuale. Le citazioni permeano da sempre il tessuto accademico, e sono utilizzate per dare credito a teorie e studi necessari all'avanzamento della ricerca in un certo dominio.
Le funzioni che, al giorno d'oggi, possono avere le citazioni sono molteplici. Esse permettono di:
- essere organizzate topologicamente, definendo il grafo di connessione tra gli articoli citanti e citati nel tempo, così da evidenziale l'evoluzione della scienza nel tempo;
- essere studiate in termini sociologici, per l'identificazione di cattivi processi di condotta della ricerca scientifica e di accesso elitario alla scienza;
- sottostare a logiche prettamente quantitative, creando metriche basate su citazioni per valutare l'impatto scientifico di un'idea e/o di una persona;
- esprimere un valore economico, considerandole come moneta con la quale un ricercatore provvede alla sua sostentazione accademica.
OpenCitations è un'infrastruttura accademica dedicata alla diffusione della conoscenza aperta e alla pubblicazione di dati bibliografici e citazionali aperti usando le tecnologie del Semantic Web.
In questo contesto, con aperta/o, relativamente alla conoscenza e i dati si intende
quando chiunque ha libertà di accesso, uso, modifica e condivisione ad essa – avendo al massimo come limite misure che ne preservino la provenienza e l'apertura”
Definizione di Conoscenza Aperta
OpenCitations ha da poco pubblicato una nuova collezioni di dati, il Coronavirus Open Citations Dataset (COCD). COCD attualmente (18 maggio 2020) che contiene 189697 citazioni e i metadati dei relativi 49719 articoli citanti/citati.
La copertura dei dati citazionali in COCD non è completa, perché non tutti gli editori depositano in modo aperto le informazioni relative ai riferimenti bibliografici dei loro articoli, necessari per ricostruire le citazioni.
I due obiettivi che il workshop di oggi si propone sono:
- capire la situazione corrente relativa alla disponibilità di dati citazionali (ovvero il link citazionale + i metadati descrittivi dell'articolo citante e citato) nell'ambito dei lavori scritti sui coronavirus negli ultimi 20 anni;
- estendere la collezione di link citazionali DOI-to-DOI presenti in COCD, e metterli a disposizione di tutti.
Domanda: in che misura gli editori non stanno contribuendo?
Sul repository GitHub di COCD ci sono una collezione di DOI di articoli che parlano di coronavirus ma i cui editori non hanno depositato i relativi riferimenti bibliografici su Crossref. Crossref è un'organizzazione (con sede a Oxford) che permette agli editori di assegnare un DOI ai propri articoli e offre servizi di conservazione e recupero dei relativi metadati.
Un DOI, Digital Object Identifier, una stringa usata per identificare documenti digitali, e ha la seguente struttura:
[prefisso]/[suffisso]
, ad esempio 10.1056/nejmoa2001017
.
Il [prefisso]
identifica l'editore che ha pubblicato il documento a cui il DOI si riferisce. Usando le API di Crossref – http://api.crossref.org/prefixes/[prefisso]
, ad esempio http://api.crossref.org/prefixes/10.1108
– è possibile capire chi è l'editore relativo.
L'obiettivo è quello di capire quanti articoli, per editore, non hanno depositato riferimenti bibliografici in Crossref – al 4 Aprile 2020.
Gli editori di alcuni articoli, identificati da DOI, potrebbero non aver messo a disposizione i relativi riferimenti bibliografici su Crossref. Le ragioni possono essere almeno quattro:
- gli articoli non hanno proprio specificato alcun riferimento bibliografico;
- l'editore non vuole rilasciare questi dati in modo aperto;
- l'editore non ha la forza-lavoro per estrarre i riferimenti bibliografici dai suoi articoli e metterli a disposizione in modo aperto;
- sono articoli pubblicati tra Aprile e Maggio 2020 e, seppur i riferimenti bibliografici sono stati depositati in Crossref, non sono stati ancora integrati in OpenCitations.
L'obiettivo è quello di estrarre a mano le citazioni DOI-to-DOI dai seguenti articoli, in cui sia l'articolo citante sia l'articolo citato siano definiti da un DOI. I DOI degli articoli citanti da considerare sono i seguenti:
10.31234/osf.io/z2x9a
10.31234/osf.io/2p57j
10.31219/osf.io/8w62r
10.35542/osf.io/9urcd
10.31219/osf.io/3wx5a
10.31219/osf.io/2zuea
10.31235/osf.io/uf3zn
10.31219/osf.io/pagmf
10.31219/osf.io/f3xzq
10.31219/osf.io/f2eka
10.31219/osf.io/swqb8
10.31234/osf.io/ye3ma
10.31235/osf.io/6yw9r
10.31234/osf.io/fdn32
10.31219/osf.io/zfg6x
10.31235/osf.io/3uqn5
10.31235/osf.io/wygpk
10.31219/osf.io/a83zh
10.31219/osf.io/8fyt6
10.31219/osf.io/tj5vk
Quello che si chiede di fare definito come segue.
- Recuperare il PDF dell'articolo citante sul Web, usando un browser e andando all'URL
https://doi.org/[DOI]
, ove[DOI]
è uno dei DOI della lista sopra – ad esempiohttps://doi.org/10.31234/osf.io/z2x9a
. - Nel PDF, individuare la lista dei riferimenti bibliografici citati (normalmente alla fine dell'articolo) e, per ognuno di essi:
- copiare e incollare l'intero riferimento sull'interfaccia di Crossref per cercare documenti, o alternativamente su Google Scholar;
- controllare se il documento restituito è corretto rispetto al riferimento bibliografico;
- indentificare il suo DOI (se definito), eventualmente andando anche sul sito dell'editore che lo ha pubblicato (su Google Scholar, questa di solito è l'unica strada per recuperare il DOI);
- nella tabella messa a disposizione online, copiare il DOI dell'articolo citante e di quello citato in una riga.
Slide: Peroni S (2020). Aiutare a tracciare l'evoluzione della scienza ai tempi dei coronavirus. Versione 1.0. Zenodo. http://doi.org/10.5281/zenodo.3832939
Dati citazionali: Bel Mouddene S, Cestaro G, Coppini S, Gallo E, Lerose C, Lipari R, … Vezzani T (2020). Citazioni di alcuni articoli depositati in OSF. Versione 1.0. Zenodo. http://doi.org/10.5281/zenodo.3832935
I dati citazionali estratti e pubblicati su Zenodo sono stati anche pubblicati in CROCI, the Crowdsourced OpenCitations Index, messo a disposizione da OpenCitations.
Codice: Sono stati sviluppati due script per cercare di ottenere le informazioni per identificare quanti articoli, per editore, non hanno depositato riferimenti bibliografici in Crossref:
- get_prefix_publisher.py, realizzato da Arcangelo Massari e Cristian Santini – permette di recuperare i nome degli editori per ogni prefisso presente nei DOI in input;
- get_publisher_count.py, realizzato da Daniele Cavestri - permette di ottenere i DOI in input raggruppati per editore.