-Versión en español abajo.
The biodiversity information system of Colombia -SiB Colombia developed a set of scripts in Open Refine for data quality management of primary biodiversity data.
These scripts perform automatic validations of data facilitating data cleaning and format fixing:
- Taxonomic Validation with GBIF's API
- Taxonomic Validation with Species Matching web service
- Taxonomic Validation with WORMS's API (Marine data)
- Colombian Geographic Names Validation
- Dates transforming to ISO format with Canadensys conversion service
- Validation of geographic elevation with GeoNames API
"OpenRefine is a Java-based power tool that allows you to load data, understand it, clean it up, reconcile it, and augment it with data coming from the web. All from a web browser and the comfort and privacy of your own computer." From the Open Refine site
Anyone working with primary biodiversity data, no prior knowledge of coding or Open Refine are required. Although SiB Colombia works mainly with a Spanish speaking community, all the information will be available both in Spanish and English. All the basics for uploading a file and running the scripts are documented on the Wiki; additional information for advanced users can be found directly in the Open Refine Wiki
This work has been produced by the Biodiversity Information System of Colombia -SiB Colombia, the code is distributed under a GNU General Public License v3.0. SiB Colombia promotes collaboration, open data, and open knowledge. Please use and share this scripts with a proper citation:
Sistema de Información Sobre Biodiversidad de Colombia -SiB Colombia (2019). Biodiversity data quality Scripts in Open Refine (Version 1.0)[code]. https://github.com/SIB-Colombia/data-quality-open-refine/
e-mail: [email protected] Social Media: Twitter Facebook
El sistema de información sobre biodiversidad de Colombia Colombia -SiB Colombia desarrolló un grupo de rutinas en Open Refine para gestionar la calidad de los datos primarios sobre biodiversidad. Consulte la guía de validación y limpieza de datos sobre biodiversidadpara mayor información de como utilizar estas rutinas.
Estas rutinas validan de manera automática los datos, facilitando la limpieza y estandarización:
- Validación taxonómica con el API de GBIF
- Validación taxonómica con el servicio web ‘Species Matching’
- Validación taxonómica con el API de Worms (Datos Marinos)
- Validación de los nombres geográficos de Colombia según el DANE
- Transformación de fechas al estándar ISO con el servicio de conversión de ‘Canadensys’
- Validación de elevaciones con el API de GeoNames
Open Refine es un programa que permite limpiar, transformar y dar formato a los datos, usar servicios web, corrección masiva campos, entre muchas otras.
Cualquier persona que trabaje con datos primarios sobre biodiversidad, no se requiere conocimiento previo de programación o sobre Open Refine. Aunque la comunidad del SiB Colombia habla principalmente español, toda la información también estará disponible en ingles. Toda la información básica sobre cargar los archivos y correr las rutinas esta documentada en la Wiki; información adicional para usuarios avanzados esta disponible directamente en la wiki de Open Refine Wiki
Este trabajo fue producido por el sistema de información sobre biodiversidad de Colombia, el código esta bajo una licencia ‘ GNU General Public License v3.0’. El SiB Colombia promueve la colaboración y el acceso abierto a los datos y al conocimiento. Use y comparta este contenido dando el crédito apropiado:
Sistema de Información Sobre Biodiversidad de Colombia -SiB Colombia (2019). Biodiversity data quality Scripts in Open Refine (Version 1.0)[code]. https://github.com/SIB-Colombia/data-quality-open-refine/
e-mail: [email protected] Redes Sociales: Twitter Facebook