Soluciones
|
Este apéndice contiene las respuestas e información adicional a todos los cuestionarios de repaso. Además, esta sección contiene una sugerencia de solución a la práctica Caso de Uso. |
Soluciones de la revisión de gestión de datos
¿Por qué es mejor limpiar sus datos?
-
para hacerlos tan aptos para el uso ("fit for use") como sea posible
-
para lograr sus objetivos de calidad de datos
Siempre debe aspirar a administrar y publicar datos con la mayor calidad posible. Esto mejorará su trabajo diario (es más fácil trabajar con datos organizados y limpios), así como el trabajo de los potenciales reutilizadores de sus datos, que necesitan comprenderlos y confiar en su fuente antes de usarlos.
¿Cómo debe organizar su flujo de trabajo de limpieza de datos?
-
pregunta a sus colegas experimentados
-
trabajar a nivel institucional para armonizar los flujos de trabajo de calidad de datos
No se espera que alguien sepa todo sobre datos de biodiversidad; debe buscar ayuda y consejo de sus colegas u otras personas con conocimientos y asegurarse de que está aplicando las buenas prácticas recomendadas por su institución a medida que limpia sus datos.
Qué es mejor:
-
evitar que se generen errores
-
corregir los errores tan pronto como los encuentre en su base de datos o hoja de cálculo
La mejor manera de evitar la propagación de errores en sus datos es evitar que ocurran al inicio del proceso de colecta/registro de datos.
Por supuesto, los errores son inevitables, así que debería limpiarlos tan pronto como los encuentre, y documentar el proceso de limpieza.
Si no tiene tiempo o recursos para limpiar adecuadamente sus datos, es mejor esperar a poder hacerlo en lugar de publicar datos erróneos que puedan confundir a la gente.
¿Quién es responsable por la calidad de los datos?
-
Todos los involucrados en la gestión de datos
Cada persona involucrada en la gestión del flujo de trabajo de datos es, al menos parcialmente, responsable por su calidad, desde los técnicos de campo hasta los administradores de bases de datos.
Las personas que puedan usar sus datos más adelante, pueden informarle de cualquier error restante en sus datos y deben usarlos de manera responsable para su propia investigación, pero la calidad de los datos iniciales no es su responsabilidad.
GBIF puede realizar comprobaciones automáticas de sus datos (p. ej., detección de valores perdidos, valores geográficos atípicos, nombres científicos desconocidos), pero no debe responsabilizarse de los errores que hayan ocurrido anteriormente en el proceso de gestión de datos.
¿Qué herramientas se pueden utilizar para limpiar sus datos?
-
Excel y otras herramientas de gestión de hojas de cálculo
-
OpenRefine
-
Su software de base de datos
-
Herramientas online como el Scientific Names Resolver o Google Maps
Se pueden usar todo tipo de herramientas para limpiar sus datos, pero debe identificar cuáles responderán a sus necesidades en términos de resolución taxonómica, georreferenciación, eliminación de duplicados, etc. Puede encontrar herramientas útiles enumeradas en la sección de gestión de datos.
Soluciones de la revisión de publicación de datos
¿Qué significa la publicación de datos en el contexto de GBIF?
-
Hacer públicamente accesibles su(s) conjunto(s) de dato(s) de biodiversidad y se puede hallar en un formato estandarizado
La publicación de datos en GBIF significa hacer públicamente accesibles su(s) conjunto(s) de dato(s) de biodiversidad en un formato estandarizado (la mayoría de las veces, Darwin Core), para que pueda ser descubierto y reutilizado por otras personas.
¿Qué es un IPT?
-
una herramienta que lo ayuda a publicar sus datos en GBIF
-
una herramienta que le ayuda a producir un artículo de datos (Data Paper)
El IPT (Integrated Publishing Toolkit) es un software codificado en Java que le permite cargar y publicar datos en GBIF. No se debe utilizar como herramienta de gestión o limpieza de datos.
El IPT también puede ayudarle en el proceso de escribir y enviar un documento de datos, gracias al archivo EML que se genera automáticamente cuando se completan los metadatos del recurso de datos.
¿Qué licencias y exenciones de Creative Commons son recomendadas por GBIF para publicación de datos?
-
C0, CC-BY y CC-BY-NC
Las licencias de Creative Commons y exenciones recomendadas para publicar su(s) conjunto(s) de datos en GBIF son CC0, CC-BY y CC-BY-NC. Son licencias y/o exenciones ampliamente reconocidas que se ajustan a los requisitos internacionales de datos abiertos para compartir y reutilizar datos.
Tenga en cuenta que sólo debe elegir CC0 o CC-BY licencia/exención para su(s) conjunto(s) de dato(s) relacionados con BID.
¿Cuáles son los tres Núcleos (Cores) entre los que se puede elegir para un recurso IPT
-
Occurrence Core, Taxon Core, Event Core
Puedes elegir uno de los tres núcleos siguientes para cada uno de tus recursos IPT: registro biológico, taxón o eventos.
El estándar de Darwin Core también te permite enlazar extensiones a tu núcleo elegido, como SimpleMultimedia o MeasurementOrFact.
Los metadatos se completan en una sección separada del IPT y se comparten utilizando el estándar EML, no el Darwin Core (que se utiliza sólo para datos).
¿Cuántos archivos de extensiones puede tener un conjunto de datos?
-
tantos como sea necesario
Una vez que haya elegido un núcleo para su recurso IPT, puede añadirle extensiones de Darwin Core. Puede añadir una o varias extensiones, dependiendo del tipo de núcleo que elija y de qué extensiones son compatibles con el.
Las extensiones no son obligatorias (puede publicar un conjunto de datos sin ninguna extensión) pero pueden ser útiles si quiere compartir información adicional que no podrías mapear con el Core elegido.