Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Nuovo dataset in anteprima #747

Closed
umbros opened this issue Jun 27, 2020 · 27 comments
Closed

Nuovo dataset in anteprima #747

umbros opened this issue Jun 27, 2020 · 27 comments
Assignees
Labels
enhancement New feature or request

Comments

@umbros
Copy link
Contributor

umbros commented Jun 27, 2020

Ciao,
abbiamo pubblicato le anteprime dei dataset che cambiano:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Dataset allineati:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

dati province (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" e "codice_provincia" (asc).
Oltre ai dati delle province, sono presenti due province placeholder per ogni regione: "Fuori Regione / Provincia Autonoma" (da codice_provincie 879 a 899) che indica i soggetti fuori Regione o Provincia Autonoma e "In fase di definizione" (da codice_provincie 979 a 999) che indica i soggetti ancora non allocati su una Provincia.

dati regioni (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): aggiunta dei campi "casi_da_sospetto_diagnostico" (casi positivi identificati dal sospetto diagnostico) e "casi_da_screening" (casi positivi che sono stati identificati attraverso attività di screening), le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" (asc).

dati andamento nazionale (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-andamento-nazionale-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "data" (asc).

note (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): viene riportata la data e il testo delle note riguardanti i dati rilasciati da tutte le Regioni (nome file: dpc-covid19-ita-note). L'ordinamento è per "data" (asc).

Tutti i file prodotti saranno allineati al dataset e ordinamenti definiti.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy").

Per suggerimenti e indicazioni dateci pure i vostri feedback.

Grazie


Hello,
we published the previews of the datasets that will change:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Aligned datasets:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

** provinces data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): the notes are not more identified by codes (as is currently the case) but they will be textual ("note" field). The sorting is by "denominazione_regione" and "codice_provincia" (asc). In addition to the data of the provinces, there are two placeholder provinces for each region: "Fuori Regione / Provincia Autonoma" (from provincial_code 879 to 899) which indicates subjects outside the Region or Autonomous Province and "In fase di definizione" (from provincial_code 979 to 999) which indicates the subjects not yet allocated to a province.

** region data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): addition of the fields "casi_da_sospetto_diagnostico" (positive cases identified by the diagnostic suspect) and "casi_da_screening" (positive cases that have been identified through screening activities), the notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "denominazione_regione" (asc).

** national trend data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita- Trend-national-national-sample.csv): notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "data" (asc).

** note ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): the date is reported and the text of the notes concerning the data issued by all the Regions (file name: dpc-covid19-ita-note). The sorting is by "data" (asc).

All files produced will be aligned to the defined dataset and sorts.

The new datasets will be published from Monday 29/06, a folder will be created with the old datasets (legacy) until Friday 31/07 ("legacy" directory).

For suggestions and indications, please give us your feedback.

Thank you

@Rabelaiss
Copy link

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

@umbros
Copy link
Contributor Author

umbros commented Jun 27, 2020

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

@Rabelaiss anche per dettagliare meglio il campo chiederò maggiori info a Ministero della Salute.

@umbros umbros added the enhancement New feature or request label Jun 27, 2020
@Paulsword
Copy link

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

Non ricominciamo con l'equivoco del termine "asintomatici", che può riferirsi sia a casi di infezione acuta (e contagiosa) in assenza di sintomi (ricompresi evidentemente nel gruppo dei casi da sospetto diagnostico) che ai pazienti - normalmente asintomatici - che vengono dagli screening e dai sierologici.
Nella definizione del Ministero si legge che:
“i “casi identificati dal sospetto diagnostico” sono casi positivi al tampone emersi da attività clinica. I “casi identificati da attività di screening” emergono da indagini e test, pianificati a livello nazionale o regionale, che diagnosticano casi positivi al tampone.”
Non si fa cenno al termine asintomatico, giustamente, perché fuorviante, ma a criteri clinico/anamnestici e di provenienza dei tamponi, che mi paiono abbastanza chiari e complessivamente ben distinguibili.

@Rabelaiss
Copy link

@Paulsword grazie per la precisazione, sapresti dunque aiutarmi a capire la differenza tra il dato comunicato oggi dalla Lombardia "21 nuovi positivi a seguito di test seriologici" e il dato relativo alla Lombardia comunicato oggi dalla PC "33 casi da screening" ?

@Paulsword
Copy link

Premetto che la mia non è la voce ufficiale, quindi naturalmente aspettiamo ulteriori lumi dal Ministero.
La Lombardia è sempre difficile da decriptare. Da un lato dicono che i numeri a cui fare riferimento sono quelli di questo repository, da cui oggi si ricava 77=44+33. Loro dicono in più, ma non in necessaria incoerenza, che "32 sono debolmente positivi e 21 derivano da tamponi determinati da test sierologico". Attenzione, non 32+21, perchè i due sottogruppi in questo caso sono largamente sovrapposti. Siccome la definizione di debolmente positivo non è ancora codificata, io credo sia più corretto ora seguire il criterio clinico/anamnestico del Ministero. Verosimilmente nei 33 del Ministero sono inclusi entrambi i sottogruppi, ma non è dato saperlo.

@Rabelaiss
Copy link

@Paulsword grazie, si anch'io seguirò i dati della PC, noto però stranezze come i 213 casi da screening segnalati oggi dalla PC per il Piemonte, a fronte di soli 11 nuovi casi

@Paulsword
Copy link

Lo scorporo è appena partito. Immagino che per qualche giorno ci saranno ancora riclassificazioni del pregresso. Poi si sistemeranno.

@MarCortese
Copy link

Da giorni ho notato che nell'analisi provinciale è emersa la dicitura Fuori Regione/PA spesso con valore negativo.
Forse sono rimasto indietro ma potrei avere dei chiarimenti?Grazie

@Rabelaiss
Copy link

Rabelaiss commented Jun 27, 2020

@MarCortese da 3 giorni i casi vengono assegnati a una certa provincia non più per ospedalizzazione ma per residenza/domicilio, es un napoletano ricoverato a salerno viene adesso contato tra i casi di napoli mentre prima tra i casi di salerno

penso quindi che la categoria fuori regione conteggi quei casi per cui la regione di ospedalizzazione non coincida con quella di residenza, e quindi sono i casi in attesa di essere ricollocati nella provincia di residenza

@alexodus
Copy link

I dati legacy dovrebbero essere pubblicati per SEMPRE o almeno per svariati mesi, altrimenti si rischia di snaturare il senso della parola LEGACY (che qui parrebbe essere invece TEMPORANEAMENTE) e soprattutto del senso del OPEN DATA: ricordiamoci che da questa base dati dipende tutta una community di persone (anche a livello internazionale) . Personalmente mi trovo in difficoltà a nn poter manutenere per i prossimi 10gg l'applicazione perché sto in vacanza e la mia app, con questo cambio dati, di sicuro non funzionerà più.

@umbros
Copy link
Contributor Author

umbros commented Jun 28, 2020

@alexodus, premesso che le legacy sono di natura temporanee proprio per permettere un phasing out di funzionalità e/o dati, l'unica modifica che viene fatta è al campo note, per il resto è un'aggiunta di due valori. Posso aumentare il periodo di legacy ma comunque sul tuo applicativo dovrai comunque modificare il path dove saranno rilasciati i dati in legacy. Non è, ovviamente, nostro obiettivo interrompere servizi costruiti su questi dati, pertanto ok il tuo suggerimento, terremo attivo il periodo di legacy per 30 giorni. Grazie per il contributo.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy")").

@Rabelaiss
Copy link

@umbros Nella scheda riepilogativa delle regioni la colonna CASI TOTALI compare due volte, non sarebbe meglio eliminare una delle due visto anche che è diventata molto larga la tabella?

@umbros
Copy link
Contributor Author

umbros commented Jun 28, 2020

Ciao @Rabelaiss, non vedo la colonna ripetuta

data,stato,codice_regione,denominazione_regione,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,totale_positivi,variazione_totale_positivi,nuovi_positivi,dimessi_guariti,deceduti,casi_da_sospetto_diagnostico,casi_da_screening,totale_casi,tamponi,casi_testati,note,note_tamponi,note_casi_testati

@Rabelaiss
Copy link

@umbros scusa avrei dovuto precisare meglio, intendevo questa (e anche quelle precedenti fino al 25/6)
https://github.com/pcm-dpc/COVID-19/blob/master/schede-riepilogative/regioni/dpc-covid19-ita-scheda-regioni-20200628.pdf

@umbros
Copy link
Contributor Author

umbros commented Jun 28, 2020

Ah ok grazie della segnalazione, quella viene prodotta da ISS e MDS, segnalo la cosa.

@rtrunfio
Copy link

Ciao umbros, in attesa di vedere i nuovi dataset province volevo fare notare che, a partire dal 25/6 u.s.,, oltre all'introduzione di un record aggiuntivo "fuori regione" è stato cambiato l'ordine di visalizzazione dei dati delle province, che non è più alfabetico.
Questa cosa può creare problemi se si usa banalmente un foglio elettrico per estrapolare o calcolare dati.
Questa cosa ha un perché oppure è casuale ?
Grazie.

@umbros
Copy link
Contributor Author

umbros commented Jun 28, 2020

Ciao @rtrunfio, nel processamento dei dati possiamo questi vengono ordinati per regione e codice provincia. Per una completa automazione del sistema un'ordinamento "fisso" è di difficile amministrazione (dovremmo scrivere riga per riga l'ordinamento), pertando sarà così. Capisco che chi usa un foglio elettronico ciò può causare problemi ma dovendo assicurare continuatività al servizio automatizzandolo non possiamo più tenere degli script "hardcoded" ma abbiamo dovuto dinamicizzare il più possibile, l'altro ordinamento è sull'ordinamento regioni fatto per "denominazione regione" (P.A. Bolzano e P.A. Trento sono ordinati in maniera alfabetica). Anche su fogli elettronici però possono essere create automazioni per valore "cella". Magari possiamo supportare nella cosa.

@umbros
Copy link
Contributor Author

umbros commented Jun 29, 2020

Ciao,
i dataset allineati, temporaneamente, sono in questa directory https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati.
Alle 18 saranno spostati nelle directory corrette e tutti gli altri saranno spostati nella directory legacy.

@Rabelaiss
Copy link

@umbros Aprendo il file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni-20200626.csv
con un editor di testo, si nota che l'Emilia-Romagna occupa tre righe invece di 1, in particolare

  • la riga 6 contiene
    2020-06-26T17:00:00,ITA,08,Emilia-Romagna,44.49436681,11.3417208,109,12,121,923,1044,-24,46,23097,4252,27944,449,28393,478941,285701,"In seguito a verifica sono stati eliminati 4 casi da Ferrara
  • la riga 7 contiene
    in quanto inserimento duplicato dello stesso paziente con dati anagrafici non corretti. Il numero totale di ieri (25/06) pertanto è di 28347 e non 28351.
  • e la riga 8 contiene
    "

Lo stesso problema è presente anche nel file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni.csv

@umbros
Copy link
Contributor Author

umbros commented Jun 29, 2020

Grazie @Rabelaiss a livello di processamento non ho trovato problemi, comunque ho lavorato sul carriage return del campo note e ora è tutto su una linea.

@umbros
Copy link
Contributor Author

umbros commented Jun 29, 2020

Tutti i dati sono stati allineati, alle 18 saranno pubblicati con i dati aggiornati di oggi e in cartella legacy i dati precedenti. Grazie a tutti per la collaborazione.

@umbros
Copy link
Contributor Author

umbros commented Jun 29, 2020

Ciao a tutti, i dati sono aggiornati con i nuovi dataset e i dataset legacy nella directory legacy. Grazie per la collaborazione e se trovate problemi ai dati caricati e al processo di allineamento segnalatemelo pure.

@LucasSignorini
Copy link

Hello @umbros, I am student looking for a dataset which have information about the patients of COVID19 (specifically a dataset that shows if the patient had a previous illness). Do you know where I can get something like that? Thank you in advance!

@LucasSignorini
Copy link

A dataset from where this was made would be perfect:
https://www.epicentro.iss.it/coronavirus/sars-cov-2-decessi-italia

I am sorry for bother you, and again, thank you in advance!

@umbros
Copy link
Contributor Author

umbros commented Jun 30, 2020

Hi @LucasSignorini ISS is working to the possibility to publish it in opendata.

@umbros umbros closed this as completed Jun 30, 2020
@RealCimo
Copy link

RealCimo commented Nov 11, 2020

@umbros
Ringrazio innanzitutto per il lavoro svolto nel raccogliere tutti i dati disponibili in un unica piattaforma in maniera chiara e fruibile.
Per quanto riguarda il nuovo dataset avrei il seguente suggerimento.
I dati delle province antecedenti al 31/07/2020 sono ancora scritti nella forma relativa al vecchio dataset: in particolare il problema riguarda il campo "Fuori Regione / Provincia Autonoma" che compare solo dal 31/7 in poi.
Per maggiore chiarezza riporto il link relativo al file .json a cui mi sto riferendo:
https://github.com/pcm-dpc/COVID-19/blob/master/dati-json/dpc-covid19-ita-province.json
Non si potrebbe aggiungere tale campo anche ai dati antecedenti al 31/7 e assegnargli un valore nullo ? Questa correzione darebbe una coerenza maggiore all'insieme di dati, ma in particolare, per quanto mi riguarda, semplificherebbe il codice di Matlab che uso per elaborare i dati.

@Rabelaiss
Copy link

@RealCimo ciao anch'io ho matlab però uso i file .csv, ci sono vantaggi ad usare i json?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

9 participants