Gestión de datos
|
En este módulo revisará los principales conceptos, herramientas relacionadas y buenas prácticas para la gestión de datos, en particular, la limpieza y estandarización de datos. |
Principios de la gestión de datos
|
En esta presentación, repasará un importante conjunto de principios necesarios para mejorar los datos mediante los procesos de limpieza de datos. |
Presentation transcript
Haga clic para ampliar
Diapositiva 1 - Gestión de Datos
En esta presentación, vamos a explorar los principios y procesos clave que son importantes para una gestión de datos eficaz.
Foto: GBIF: https://www.gbif.org/occurrence/2597778861 Passiflora miniata Vanderpl. Titular de los derechos: Gee (Gerard Chartier) Licencia: http://creativecommons.org/licenses/by/4.0/ Referencia: https://www.flickr.com/photos/33212211@N00/49747811713/
Diapositiva 2 - Conceptos clave
El concepto de gestión de datos incluye una amplia gama de temas, desde formatos de metadatos hasta organización de bases de datos. En esta presentación vamos a discutir un importante conjunto de principios necesarios para mejorar los datos a través de los procesos de limpieza de datos.
Foto: GBIF: https://www.gbif.org/occurrence/2563595544 Passiflora miniata Vanderpl. Titular de los derechos: onidiras Licencia: http://creativecommons.org/licenses/by-nc/4.0/ Referencia: https://www.inaturalist.org/photos/60268318
Diapositiva 3: ¿Qué es la limpieza de datos?
¿Qué es la limpieza de datos? Arthur Chapman definió la limpieza de datos en 2005 como: “Un proceso utilizado para determinar datos inexactos, incompletos o irrazonables y luego mejorar la calidad mediante la corrección de errores y omisiones detectados.” El proceso de limpieza puede incluir comprobaciones de formato, integridad y razonabilidad, la identificación de valores atípicos, la revisión por expertos en contenido y la validación según estándares, reglas y convenciones aceptadas.
Foto: GBIF: https://www.gbif.org/occurrence/2574258605 Pycnonotus xanthorrhous Anderson, 1869 Titular de los derechos: benjamynwell Licencia: http://creativecommons.org/licenses/by-nc/4.0/ Referencia: https://www.inaturalist.org/photos/61712704
Diapositiva 4 - El marco de trabajo para la limpieza de datos
Aunque hay muchos métodos que se pueden aplicar mientras se limpian los datos, vemos el proceso de limpieza en cinco pasos generales: . Primero, buscamos determinar y definir los tipos de errores que probablemente estén presentes en nuestros datos. . A continuación, realizamos una búsqueda para identificar las instancias en las que se produjeron esos errores. . Luego, corregiremos esos errores, siempre que sea posible. . Cuando decidimos cuál es el mejor medio para hacer las correcciones, queremos documentar tanto los tipos de errores que encontramos como las soluciones que les hemos aplicado. . Por último, queremos modificar la forma de introducir los datos para reducir futuros errores del mismo tipo. Fuente: Maletic J.I., Marcus A. (2005) Depuración de Datos. En: Maimon O., Rokach L. (eds) Data Mining and Knowledge Discovery Handbook. Springer, Boston, MA, https://doi.org/10.1007/0-387-25465-X_2
Foto: GBIF: https://www.gbif.org/occurrence/2563614792 Parthenos sylvia Titular de los derechos: onidiras Licencia: http://creativecommons.org/licenses/by-nc/4.0/ Referencia: https://www.inaturalist.org/photos/60365988
Diapositiva 5 - Por qué limpiar los datos
Una cosa es cierta: Los errores son habituales y siempre podemos esperar encontrarlos en los datos que mantenemos. Nuestro objetivo es aplicar las mejores prácticas, incluidos principios, procesos y herramientas, para que los datos sean lo más adecuados posible, aunque no sepamos cómo los utilizarán los usuarios.
Foto: GBIF: https://www.gbif.org/occurrence/2634008550 Calotes emma Gray, 1845 Titular de los derechos: Brieuc Fertard Licencia: http://creativecommons.org/licenses/by-nc-nd/4.0/ Referencia: https://www.inaturalist.org/photos/65219025
Diapositiva 6 - Principios de limpieza de datos
Analicemos algunos de los principios recomendados para la limpieza de datos. Estos principios se presentan para su consideración, de modo que pueda desarrollar y mejorar su propio flujo de trabajo de calidad de datos. El flujo de trabajo que cree debe representar el proceso más eficiente y eficaz para lograr la máxima calidad de datos, considerando los recursos y la experiencia de su institución. Hable con sus compañeros para conocer sus flujos de trabajo, pero en última instancia, debe esforzarse por crear un flujo de trabajo que le ayude a alcanzar sus objetivos de calidad de datos.
Foto: GBIF: https://www.gbif.org/occurrence/2444972450 Ranina ranina Linnaeus, 1758 Titular de los derechos: Ondřej Radosta Licencia: http://creativeco…ses/by-nc-sa/4.0/ Referencia: https://www.inaturalist.org/photos/43974229
Diapositiva 7 - Principios de limpieza de datos
Los dos primeros principios en la limpieza de datos son la planificación y la organización. Planifique cómo desea que se desarrolle el proceso de limpieza. Un enfoque disperso o aleatorio difícilmente producirá resultados consistentes. Desarrolle e implemente una estrategia que se ajuste a los recursos y la experiencia de su institución. Un plan sólido mejorará tanto sus datos como la reputación de su institución entre los usuarios de datos. Uno de los primeros pasos de su plan debe ser organizar los datos. Por ejemplo, podría organizarlos por taxón y luego enviar el subconjunto de datos apropiado a las personas con el conocimiento o los recursos necesarios para limpiarlos según los nombres. Esto puede hacerse por ubicación geográfica o base de registro, o incluso en paquetes de datos de tamaño específico ordenados numéricamente. Aproveche las fortalezas de su institución.
Imagen: Licencia abierta de Pixabay
Diapositiva 8 - Principios de limpieza de datos
Como dice Arthur Chapman: «Más vale prevenir que curar». Al fin y al cabo, siempre es más fácil y económico prevenir un error que buscarlo y corregirlo. Cuanto más se planifique con antelación, incluso desde el momento en que se registran los datos en el campo, menos errores se encontrarán. El uso de vocabularios estandarizados y procedimientos claros para la captura y la introducción de datos son solo algunas de las muchas herramientas que se pueden utilizar para prevenir posibles errores.
Asegúrese de que todos en su organización comprendan que la calidad de los datos es responsabilidad de todos. Por supuesto, la responsabilidad principal recae en quienes mantienen los datos, pero todos, desde los técnicos de campo hasta los estudiantes que ingresan datos y los curadores eméritos, tienen la responsabilidad de tratar los datos con cuidado y comunicar cualquier error o inconsistencia que puedan detectar.
Imagen: Licencia abierta de Pixabay
Diapositiva 9 - Principios de limpieza de datos
El mantenimiento de datos es tan eficaz como la experiencia que respalda el proceso, y no se puede esperar que una sola persona lo sepa todo. Establecer alianzas con usuarios de datos y expertos en contenido puede contribuir a que el proceso de calidad de datos sea más exitoso. Contacte con su comunidad de usuarios, tanto dentro como fuera de su institución, y colabore con ellos para mantener sus datos con la máxima calidad.
Priorice la limpieza de datos para aprovechar los recursos y el conocimiento de su institución. Por ejemplo, puede revisar todos los datos registrados por los recolectores que aún viven para evitar la pérdida de información importante. Si maneja una gran cantidad de datos, puede priorizar aquellos que se pueden limpiar al menor costo mediante procesos automatizados y, posteriormente, los errores más complejos que requieren atención individual. En definitiva, debe priorizar los datos de mayor valor para el trabajo de su institución y procesarlos de forma lógica y ordenada.
Imagen: Licencia abierta de Pixabay
Diapositiva 10 - Principios de limpieza de datos
En ocasiones, establecer indicadores de rendimiento antes de que comience el proceso de limpieza puede ser una estrategia eficaz. Un indicador podría ser completar la limpieza de 500 registros cada semana. Otro indicador podría ser proporcionar un informe estadístico sobre la precisión de las correcciones realizadas, como por ejemplo: “El 95% de todas las georreferencias corregidas esta semana tienen ahora una incertidumbre en metros inferior a 1000 metros.” Este tipo de medidas pueden orientar y guiar a las personas que realizan la limpieza, además de servir como medio para informar sobre los éxitos y las áreas que necesitan mejorar. En un mundo ideal, usted habrá desarrollado un plan de mantenimiento de datos optimizado para ser lo más eficiente y efectivo posible. La optimización se puede lograr de diversas maneras, como aprovechar las fortalezas de su institución, establecer objetivos claros y métricas de éxito, y ajustar periódicamente sus prioridades según los recursos disponibles.
Imagen: Licencia abierta de Pixabay
Diapositiva 11 - Principios de limpieza de datos
Una de las mejores maneras de evaluar la eficacia de sus procesos de limpieza y mantenimiento de datos es solicitar la opinión de los usuarios de datos de su comunidad. Esto se puede lograr mediante las colaboraciones que mencionamos anteriormente, pero también puede obtener comentarios de otras maneras. Una de ellas es revisar la forma en que GBIF presenta sus datos. Puede comparar los datos tal cual se publican en GBIF con los datos interpretados que GBIF haya corregido o actualizado. Estas comparaciones pueden ayudarle a optimizar su proceso de limpieza de datos, y también puede contribuir a que GBIF mejore sus procesos de calidad de datos al proporcionarles comentarios de expertos.
Una de las mejores maneras de lograr el éxito en la limpieza de datos es brindar capacitación y formación a todas las personas que trabajan con ellos. Estas capacitaciones pueden ser organizadas por usted mismo, impartidas a nivel local o regional en colaboración con otras instituciones de su zona, o bien, talleres y cursos ofrecidos por otros grupos, como GBIF. Si necesita capacitación, consulte el sitio web de GBIF periódicamente o póngase en contacto con los Mentores Comunitarios o los Embajadores de Datos Abiertos de Biodiversidad de GBIF, quienes también pueden ser excelentes recursos para oportunidades de capacitación y formación.
Imagen: Licencia abierta de Pixabay
Diapositiva 12 - Principios de limpieza de datos
La documentación es uno de los principios más importantes de la limpieza de datos. Esto es cierto de dos maneras claves.
En primer lugar, independientemente de los procesos que utilice para mantener sus datos, es fundamental ser transparente sobre cómo se detectan y corrigen los errores. Esta transparencia resulta realmente eficaz cuando el proceso de limpieza de datos está bien documentado. Sin una documentación clara y accesible, se corre el riesgo de perder buenas prácticas, crear procesos redundantes y perder la optimización. Una buena documentación le ayudará a evitar errores recurrentes.
La documentación también es clave para una buena calidad de datos. Una buena documentación, por ejemplo, en los metadatos, permite a los usuarios determinar si los datos son adecuados para su uso. Su documentación no solo debe incluir metadatos de calidad, sino también las mejores prácticas, vocabularios estandarizados y las autoridades taxonómicas y geográficas utilizadas. Documentar quién limpió los datos le ayudará a optimizar su proceso, alcanzar los objetivos de rendimiento y, en definitiva, a comprender mejor el origen de sus datos y cómo se han ido mejorando con el tiempo.
Imagen: Licencia abierta de Pixabay
Diapositiva 13 - Conclusión
Esto forma parte de una serie de presentaciones utilizadas en el curso de Movilización de Datos de Biodiversidad del GBIF. El programa de estudios sobre movilización de datos de biodiversidad se desarrolló originalmente como parte del Programa de Desarrollo de Información sobre Biodiversidad, financiado por la Unión Europea.
Esta presentación fue creada originalmente por Néstor Beltrán, con contribuciones adicionales de David Bloom, entrenadores, mentores y participantes de BID y BIFA.
Ejercicio 2a
|
For this exercise, you will perform a series of validation checks to evaluate the provided file for errors. |
The Swedish Butterfly Network has decided to begin sharing their data with GBIF. You have received an Excel file from the data capture team and have been asked to validate and correct the data in the file.
Controles de validación
In this exercise we will focus on technical and consistency errors and perform a basic validation check to identify the errors.
Consulte [Validation checks] para obtener información sobre los tipos de errores.
-
Download UC-Practice-2ab-ForCleaning.xlsx. (43 KB)
-
Open the file in Excel and examine the three tabs.
-
Find and document the errors (indicating the technical or consistency subtype).
-
Manually fix the errors if you have time.
-
Use the previously downloaded exercise sheet (PDF, 4 MB) to provide your answers.
Herramientas de gestión de datos
|
En esta presentación, aprenderá sobre diversas herramientas que puede utilizar para mejorar la calidad de sus datos. |
Presentation transcript
Haga clic para ampliar
Diapositiva 1 - Gestión de datos - Herramientas
En esta presentación, vamos a explorar la importancia de las herramientas de software que pueden ayudar a mantener, limpiar y estandarizar sus datos.
Imagen de Mudassar Iqbal de Pixabay
Diapositiva 2 - Importancia del mantenimiento de datos
La Calidad de los Datos se produce en cada paso del proceso de movilización de datos. Dentro de las funciones de su equipo, debe asegurarse de que haya alguien responsable y capacitado para el mantenimiento y la manipulación de los datos. Sabemos que los datos del mundo real son confusos y que es necesario transformarlos y normalizarlos para que sean fácilmente comprensibles y aptos para su uso.
Cuando transformes datos (por ejemplo, fusionando columnas, convirtiendo coordenadas, cambiando el datum, etc.), asegúrate de documentar los cambios y de tener una copia original a la que pueda volver en caso necesario.
Foto: Anas crecca subsp. crecca Observada en Japón por Yoshi.K. CC BY-NC 4.0
Diapositiva 3 - Qué hay que tener en cuenta al elegir una herramienta
Como ya se explicó en el curso de fundamentos, en la sección de software, a la hora de elegir herramientas hay que tener en cuenta el precio, la facilidad de uso, la documentación y el soporte, así como los requisitos técnicos necesarios para utilizar la herramienta. Ninguna herramienta es perfecta. Lo importante es encontrar el equilibrio adecuado y la herramienta que se adapte a tus necesidades.
Foto: Asota egens subsp. confinis Rothschild, 1897 Observada en Japón por Takaaki Hattori CC BY 4.0
Diapositiva 4 - Qué hay que tener en cuenta al elegir una herramienta
Las herramientas que elijas pueden no ser las mismas que usan otros en tu institución, y eso está bien, a menos que tu organización imponga restricciones sobre las herramientas que puedes usar. Debes encontrar y usar las herramientas que te ayuden a alcanzar los objetivos de tu institución. Por lo tanto, necesitas crear un conjunto de herramientas que te ayuden a ti y a tus compañeros a realizar su trabajo de la manera más eficaz posible.
Foto: Crepidiastrum lanceolatum (Houtt.) Nakai observado en Japón por Takaaki Hattori CC BY 4.0
Diapositiva 5 - Consideraciones técnicas básicas
Algunas de las consideraciones técnicas a la hora de elegir herramientas deben incluir las entradas y salidas que la herramienta utiliza para los archivos.
¿Permite importar y exportar ficheros delimitados normalizados?
Puede seleccionar la codificación (por ejemplo UTF-8) al abrir o guardar archivos para evitar problemas de codificación con caracteres especiales.
Foto: Conus (Virroconus) ebraeus Linnaeus, 1758 Observado en Japón por Robert Guralnick CC BY 4.0
-
Diapositiva 6 - Herramientas - datos sobre biodiversidad*
En el curso Fundamentos, le presentamos una lista de herramientas de software recopilada por anteriores entrenadores, mentores y participantes de este curso. En el resto de esta presentación, repasaremos algunas de las herramientas que serán útiles para completar los ejercicios de gestión de datos de este curso.
Foto: Chelonia mydas (Linnaeus, 1758) observada en Tailandia por Michael Barth CC BY-NC 4.0
Diapositiva 7 - Herramientas - editores de texto
Cuando trabaje con archivos de datos, a menudo necesitará un editor de texto que sea capaz de hacer más que el editor de texto por defecto que viene con su sistema operativo, particularmente con Windows y Mac. Algunas buenas opciones son BBEdit, Notepad++ y Sublime. Al crear archivos, debe ser coherente y documentar su configuración y opciones locales. Al abrir y editar archivos, pruebe diferentes opciones y compruebe los resultados para asegurarse de que no hay ningún problema antes de continuar.
Foto: Microporus xanthopus (Fr.) Kuntze observado en Tailandia por Jacky CC BY-NC 4.0
Diapositiva 8 - Herramientas - taxonómicas
A continuación le presentamos algunas herramientas útiles para comprobar la taxonomía de sus datos.
El analizador de nombres de GBIF (GBIF Name Parser) le permite dividir el nombre científico en sus partes individuales.
El Solucionador de Nombres Globales (Global Names Resolver) utiliza la coincidencia aproximada para mostrar el taxón o sinónimo aceptado.
El Banco de listas de verificación del Catálogo de la Vida (Catalogue of Life checklist bank) ofrece una herramienta de comparación de nombres. Indica las coincidencias encontradas dentro del banco de listas de verificación con la lista de nombres proporcionada y devuelve la coincidencia junto con la taxonomía superior.
Además de estas herramientas, existen otras que se ocupan de categorías temáticas taxonómicas específicas, como iPlant Taxonomic Name Resoluton y el Registro Mundial de Especies Marinas (World Register of Marine Species - WoRMs).
Diapositiva 9 - Transformación de DMS a formato decimal
Con frecuencia, encontrará en sus conjuntos de datos que las coordenadas se han almacenado en formato de grados, minutos y segundos (también conocido como DMS). Deberá convertirlas a grados decimales para estandarizar los datos de los campos decimalLatitude y decimalLongitude de Darwin Core. Puede hacerlo usted mismo utilizando esta fórmula matemática.
Grados decimales = (minutos + minutos de arco/60 + segundos de arco/3600) * hemisferio
Hemisferio longitudinal: oeste = -1; este = 1
Diapositiva 10 - Herramientas - georreferenciación
Sin embargo, existen herramientas en línea que pueden ayudarle con la georreferenciación y la conversión de coordenadas.
El enlace Especies de CRIA alberga diversas herramientas de limpieza de datos. infoXY puede ayudar a obtener información sobre la localidad utilizando coordenadas geográficas.
La Calculadora de Georreferenciación es una herramienta creada para ayudar en la georreferenciación de localidades descriptivas, como las que se encuentran en las colecciones de historia natural de los museos.
Además, también puede resultarle útil Google Maps o Google Earth. Google Maps incluye navegación completa, mapas y puntos de interés, con solo una pequeña muestra de imágenes satelitales, mientras que Google Earth cuenta con datos satelitales 3D completos y solo un pequeño subconjunto de información sobre lugares, sin navegación punto a punto.
Dado que en este curso no se enseña georreferenciación, se recomienda que revise la documentación sobre georreferenciación, disponible en el sitio web de GBIF, antes de realizar cualquier proyecto de georreferenciación a gran escala.
Diapositiva 11 - Conversión de coordenadas y fechas
Canadensys ofrece dos herramientas que pueden ayudar tanto en la Conversión de Coordenadas como Conversión de Fechas.
Diapositiva 12 - Herramientas de línea de comandos
Los sistemas operativos incluyen sus propias consolas de línea de comandos. Además, muchas herramientas de escritorio ofrecen funcionalidades de línea de comandos para usar dentro de dichas consolas. Las herramientas de línea de comandos son excelentes para crear scripts y automatizar procesos.
Diapositiva 13 - Repaso
Recuerde que existen muchísimas fuentes para validar, limpiar y normalizar sus datos. Hasta que elabore su lista preferida de herramientas probadas y fiables, recuerde explorar muchas opciones.
Foto: Cheilinus fasciatus (Bloch, 1791) Observado en Tailandia por Michael Barth CC BY-NC 4.0
Diapositiva 14 - Conclusión
Esto forma parte de una serie de presentaciones utilizadas en el curso de Movilización de Datos de Biodiversidad del GBIF. El programa de estudios sobre movilización de datos de biodiversidad se desarrolló originalmente como parte del Programa de Desarrollo de Información sobre Biodiversidad, financiado por la Unión Europea. Esta presentación fue creada originalmente por Néstor Beltrán, con contribuciones adicionales de Sophie Pamerlon y David Bloom, entrenadores, mentores y participantes de BID y BIFA.
Ejercicio 2b
|
En este ejercicio, practicará la limpieza de datos utilizando Excel y otras herramientas útiles. |
Limpieza de datos con Excel
SBN te ha proporcionado una lista de verificación de elementos de calidad de datos para comprobar:
-
All names are correctly spelled and are butterflies
-
All names are complete
-
Todas las coordenadas están dentro del país indicado y convertidas a formato decimal
-
Todas las fechas están en la columna correspondiente y en el formato AAAA-MM-DD
-
Refer to [Helpful tools] in order to complete the exercise. It is suggested to use the GBIF Species Matching tool, the Canadensys Coordinate Converter and Google Maps. You are not limited to these tools, you may use any tools you like.
-
Continue using the same file from the previous exercise.
-
Correct any additional errors found in the dataset and document the changes you perform in the exercise sheet.
-
Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.
-
OpenRefine
|
En esta presentación, aprenderá sobre OpenRefine. Puede utilizar OpenRefine para normalizar y mejorar la calidad de sus datos. |
Presentation transcript
Haga clic para ampliar
Diapositiva 1 - Gestión de datos - OpenRefine
En esta presentación, vamos a presentar OpenRefine como herramienta para la limpieza de datos.
Diapositiva 2 - OpenRefine
Anteriormente conocido como Google Refine, ahora es de acceso abierto y de código abierto. OpenRefine puede utilizarse para la limpieza y normalización de datos. Puede encontrarlo en openrefine.org.
Diapositiva 3: ¿Qué es OpenRefine?
OpenRefine es una potente herramienta para trabajar con datos desordenados.
OpenRefine admite la navegación por facetas como mecanismo para ver un panorama general de los datos y filtrar sólo el subconjunto de filas que desea modificar en bloque.
La función de agrupación intenta agrupar las opciones en la faceta de texto, de modo que las opciones que "parecen similares" se agrupen.
La conciliación es un proceso semiautomatizado de cotejo de nombres de texto con identificadores o claves de bases de datos.
Puede utilizar OpenRefine para conciliar los nombres de sus datos con los de cualquier base de datos que ofrezca un servicio web conforme a la especificación Reconciliation Service API.
Diapositiva 4 - Lo que OpenRefine no es
OpenRefine, sin embargo, no es como otras herramientas que haya utilizado. OpenRefine NO puede utilizarse para almacenar o gestionar datos; es estrictamente una herramienta de limpieza y/o normalización.
Diapositiva 5 - Comparación de características
Dado que OpenRefine es un tipo de herramienta diferente, debe considerar cuándo es apropiado utilizarla frente a otras herramientas.
Una base de datos proporciona infraestructura para el almacenamiento y la indexación de datos. Por lo general, requiere conocimientos de programación para su edición y carece de una visualización sencilla.
Excel es una aplicación de hoja de cálculo. Es útil para documentar datos y realizar operaciones. Y aunque puede gestionar los datos y tiene una capacidad limitada para limpiarlos y normalizarlos, suele limitarse a editar celda por celda. Los datos no siempre son visibles y carece de potentes herramientas de visualización.
OpenRefine, en cambio, ofrece edición multicelda, exploración y transformación sencillas y visualización interactiva. Pero, como ya se ha dicho, no sirve para almacenar y gestionar datos.
Diapositiva 6 - Características de OpenRefine
Ahora que ya conoce las diferencias, aquí tiene una lista de funciones útiles que encontrará en OpenRefine. Pronto tendrá la oportunidad de completar un tutorial para probar todas las funciones.
OpenRefine es un software que se instala en la computadora. Requiere JAVA JRE/JDK para funcionar. Funciona en Windows, Mac y Linux.
Como OpenRefine es gratuito y de código abierto, cuenta con el apoyo de una gran comunidad de desarrolladores y usuarios. Es fácil encontrar tutoriales en línea sobre cómo utilizar la herramienta.
Diapositiva 7 - Conclusión
This is part of a series of presentations used in the GBIF Biodiversity Data Mobilization course. The biodiversity data mobilization curriculum was originally developed as part of the Biodiversity Information Development Programme funded by the European Union. This presentation was originally created by Nestor Beltran with additional contributions by Sharon Grant, David Bloom, GBIF Trainers, Mentors and Students. This presentation has been narrated by Laura Anne Russell.
Ejercicio 2c
|
En este ejercicio utilizará OpenRefine para mejorar la calidad de un conjunto de datos utilizando las funciones predeterminadas, los servicios web existentes y expresiones regulares. |
Ejercicio 2c
-
Download UC-Practice-2c-OpenRefine.csv. (42 KB)
-
Download and complete the exercises in OpenRefine-Exercise2c-EN.pdf. (PDF, 2.2 MB)
-
Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.
Recursos para el ejercicio
Comprobaciones de validación
Errores técnicos Relativamente sencillos, a menudo automatizables, comprobación de la integridad de los datos. Pueden indicar exportaciones incorrectas, mapeo de datos, desplazamientos de campos (p. ej., desplazamiento de una columna a la derecha) o falta de datos en la fuente.
-
Completitud: Si todos los datos y metadatos están disponibles: ¿están presentes todos los campos?, ¿están completos todos los campos?
-
Límites: Por ejemplo, son días dados en el rango 1-31 (dependiendo del mes)
-
Tipo de datos: Por ejemplo, ¿el campo Fecha contiene una fecha o un número?
-
Formato de datos: Por ejemplo, ¿las fechas se proporcionan como 01/01/2010 o 01/ene/10?
Errores de consistencia
Aplicación de reglas del mundo real a los datos. Pueden indicar la entrada incorrecta de datos a partir de registros antiguos, errores de transcripción o procesamiento posterior. Algunas son complejas de implementar y requieren conjuntos de datos de referencia para su comprobación. Por ejemplo, una lista de colectores conocidos y hábitos de colecta. Estas reglas se pueden recopilar de los usuarios y analistas de datos.
-
Taxonómico: Por ejemplo, si se ha identificado a nivel de especie, ¿se ha proporcionado un nombre científico binomial y entradas en los campos de género y especie?
-
Aceptación general: ¿Son coherentes las fechas de recopilación, identificación, actualización y digitalización?
-
Valores atípicos: Detecte los valores atípicos, pero recuerde que no todos los valores atípicos son necesariamente errores. Por ejemplo, compárelos con un rango de especies conocido, o con un rango ambiental conocido (pero recuerde que los valores atípicos pueden ser identificaciones incorrectas, en lugar de coordenadas incorrectas).
-
Geográfico: ¿Están las coordenadas dentro de la localidad o región identificada? Por ejemplo, ¿hay registros terrestres en el mar o registros marinos en tierra?
-
Patrones de colecta: ¿El detalle del registro coincide con los patrones de colecta conocidos de la organización o el colector? ¿Parece que se han creado registros después de la muerte de un colector (¿podría ser un colector diferente con un nombre similar)? Por ejemplo, ¿se atribuyen registros de mamíferos a un grupo de observación de aves?
-
Exactitud y precisión: Por ejemplo, ¿hay algún registro georreferenciado que indique una precisión o exactitud muy alta en un período de colecta anterior al GPS (o previo a los GPS exactos)?
-
Métodos de coleta: Los diferentes métodos de muestreo (por ejemplo, transectos y levantamientos de área) tienen características particulares. ¿Los registros son consistentes con el método proporcionado?
Herramientas útiles
Taxonomía
-
*GBIF Species Matching: https://www.gbif.org/tools/species-lookup
-
GBIF Name Parser: https://www.gbif.org/tools/name-parser
-
Global Names Resolver: http://resolver.globalnames.org
-
Catalogue of Life checklist bank name match: https://www.checklistbank.org/tools/name-match
-
iPlant TNRS: http://tnrs.iplantcollaborative.org/
Georeferenciación
-
Calculadora de Georreferenciación: https://georeferencing.org/calculator
-
Convertidor de coordenadas Canadensys: http://data.canadensys.net/tools/coordinates
-
Google Maps: https://maps.google.com/
Fechas
-
Análisis de fechas de Canadensys: http://data.canadensys.net/tools/dates
Revisión
|
Pon a prueba tus conocimientos sobre los conceptos tratados en este módulo. Algunas preguntas pueden tener varias respuestas correctas. Puede leer más sobre las respuestas en el Apéndice de Soluciones. |