Publicación de datos
|
En este módulo, aprenderá sobre conceptos de publicación de datos, incluyendo IPT, núcleos y extensiones, y la importancia de las licencias, metadatos, campos obligatorios y alojamiento de conjuntos de datos. |
Conceptos de publicación de datos
|
En esta presentación, conocerá los conceptos de publicación de datos y recibirá una introducción al Integrated Publishing Toolkit (IPT). |
Presentation transcript
Haga clic para ampliar
Diapositiva 1 - Conceptos de publicación de datos
En esta presentación, lo introduciremos a el concepto de Publicación de Datos. También le presentaremos la Herramientas de Integrada de Publicación de GBIF (IPT).
Foto: Euphorbia royleana Boiss. Observado en Nepal por Yaling Lin CC BY-NC 4.0
Diapositiva 2 - Compartir tus datos
Llegados a este punto del curso, ya ha completado todas las secciones de un proyecto de movilización. Ahora está listo para compartir tus datos. Ha generado un conjunto de datos limpio y estandarizado, y desea compartirlo y visualizarlo en el portal de datos de GBIF.
Diapositiva 3 - Publicación de datos
Pero no se trata solo de entregar una hoja de cálculo o un archivo de texto a GBIF. Hay que publicar los datos. La publicación de datos consiste en hacer que los conjuntos de datos de biodiversidad sean accesibles al público, localizables y lo más abiertos posible, en un formato estandarizado (por ejemplo, Darwin Core), a través de un punto de acceso. Este punto de acceso es una URL, una dirección web. La mayoría de las organizaciones dentro de la Red GBIF, también conocidas como publicadoras, utilizan un IPT (Integrated Publishing Toolkit) para publicar sus datos. Estos publicadores pueden optar por alojar su propia instalación de un IPT, como el Museo Field, pero generalmente prefieren encontrar un proveedor adecuado para sus actividades de publicación de datos. Esto podría ser a través de un Nodo Participante GBIF establecido o a través de un grupo temático establecido como VertNet. Otra opción podría ser utilizar uno de los IPT regionales de GBIF. Si formas parte de grupos como las Comunidades de Symbiota o Living Atlases, disponen de otros medios para ayudarle a publicar sus datos en GBIF.
Diapositiva 4 - Exención de responsabilidad y licencias de Creative Commons
La diapositiva anterior menciona el acto no solo de hacer que los datos sean accesibles, sino de hacerlos lo más abiertos posible.
En un esfuerzo por documentar el nivel de apertura de un conjunto de datos, GBIF mantiene, de acuerdo con una decisión de 2014 del consejo de gobierno de GBIF, que todos los datos publicados y registrados para su uso en el portal de GBIF, deben ser emitidos con una de las tres opciones de Creative Commons:
-
CC0, una exención para los datos disponibles para cualquier uso sin restricciones
-
CC BY, una licencia para datos disponibles para cualquier uso con la atribución apropiada
-
CC BY-NC, una licencia para datos disponibles para cualquier uso no comercial con la debida atribución.
INFORMACIÓN: Las licencias CC-BY-NC tienen un efecto significativo en la reutilización de los datos.
GBIF anima a los editores de datos a elegir la opción más abierta posible siempre que sea posible.
Los proyectos financiados mediante fondos gestionados por GBIF deben utilizar las opciones CC0 o CC BY.
Diapositiva 5 - Integrated Publishing Toolkit
El Integrated Publishing Toolkit (IPT) es una herramienta de software libre y de código abierto escrita en Java que se utiliza para publicar y compartir conjuntos de datos de biodiversidad a través de la red GBIF. La primera versión de IPT se lanzó en 2009. Fue rediseñada y relanzada en 2011. Desde entonces, IPT se ha actualizado continuamente con nuevas funciones, correcciones de errores y mejoras de seguridad.
Aunque el IPT es mantenido en GBIF, la comunidad de desarrolladores informáticos de biodiversidad puede contribuir a su desarrollo.
Algunas de las características incluyen:
-
Principal (pero no única) herramienta de publicación de GBIF.
-
Un IPT puede albergar muchos conjuntos de datos, en nombre de varias instituciones, cada una de ellas claramente representada
-
Modo de prueba y modo de producción
-
Multilingüe: se ha traducido a 7 idiomas.
Es un software de servidor, por lo que necesita una conexión estable y requiere administración técnica. Por eso muchas instituciones optan por publicar sus datos en IPT alojados.
Encontrará más información sobre el alojamiento de datos en la página web de GBIF.
Durante el resto de nuestro curso, demostraremos y completaremos ejercicios usando el IPT.
Diapositiva 6 - Elección de un núcleo de publicación
Ahora estamos recopilando lo que aprendiste en las dos primeras presentaciones de la sección Captura de datos sobre estándares, Darwin Core y tipos de datos. En esencia, el IPT se basa en Darwin Core y su guía de texto, así como en sus recomendaciones para compartir datos en un archivo Darwin Core. Darwin Core contiene tres núcleos de datos distintos que se corresponden con hasta tres de los tipos de conjuntos de datos que acepta GBIF. Tener en mente: * Cada conjunto de datos tiene uno y sólo un archivo Núcleo (core) * Cada archivo del Núcleo (core) corresponde a un tipo de conjunto de datos: registro biológico, listado taxonómico o evento de muestreo. * Cada conjunto de datos puede tener uno o más archivos de extensiones * El objetivo de una extensión es añadir nuevos campos de datos no presentes en el núcleo (core). * Cada entrada del archivo núcleo (core) está vinculada a cero, una o varias filas de un archivo de extensión. * Cada fila de un archivo de extensión hace referencia a una y sólo una fila del archivo núcleo (core).
Algunos ejemplos:
-
El Núcleo (core) es Registro Biológico (Occurrence), no hay extensiones
-
El Núcleo (core) es Registro Biológico (Occurrence), con la extensión "multimedia"
-
El Núcleo (core) es Registro Biológico (Occurrence), con extensiones multimedia sencillas y las extensiones de medición o hechos (measurementorfact)
-
El Núcleo (core) es Listado de Especies (Taxon), no hay extensiones
-
El Núcleo (core) es Listado de Especies (Taxon), con la extensión de distribución de especies
-
El Núcleo (core) es Evento de Muestreo (Event) con la extensión de Medición o hechos (measurementorfact)
Foto: Pieris formosa (Wall.) D.Don Observado en Nepal por Neil Alderson http://creativecommons.org/publicdomain/zero/1.0/[CC0 1.0]
Diapositiva 7 - Núcleo de Registro Biológico
El primer Núcleo (core) es el Núcleo de Registro Biológico (Occurrence Core). Como recordatorio, es el conjunto de datos de sucesos contiene un individuo o un grupo de individuos. Cada fila tiene un identificador único, un occurrenceID. Otros campos para los datos de registro biológico incluyen dónde, cuándo, cómo y por quién se observó y / o recopiló cada registro en el campo.
Diapositiva 8 - Núcleo de Taxon
La siguiente opción es el núcleo (core) Listado de Especies (Taxon). Como recordatorio, un conjunto de datos de listadp de especies contiene conceptos taxonómicos, no individuos. Es un "catálogo o lista de organismos o taxones con nombre". Cada fila tendrá un taxonID. Cada taxón debe ser único.
Diapositiva 9 - Datos de Evento de Muestreo
La última opción es el núcleo (core) del Evento de muestro (Event). Como recordatorio, los conjuntos de datos de eventos de muestreo permiten a los publicadores de datos proporcionar más detalles, no solo ofreciendo evidencia de que una especie ocurrió en un lugar y fecha determinados, sino también haciendo posible evaluar la composición de la comunidad para grupos taxonómicos más amplios o incluso la abundancia de especies en múltiples tiempos y lugares. Al indicar los métodos, los eventos y la abundancia relativa de especies registradas en una muestra, estos conjuntos de datos mejoran las comparaciones con los datos recopilados utilizando los mismos protocolos en diferentes momentos y lugares; en algunos casos, incluso llevan a los investigadores a inferir la ausencia de especies particulares en sitios particulares.
Cada fila tendrá un EventID. Cada evento debe ser único.
Diapositiva 10 - Requisitos de calidad de los datos
Este es un buen punto para revisar todos los campos requeridos por GBIF. Si no se proporcionan los campos obligatorios, GBIF tendrá dificultades para indexar su conjunto de datos.
Cada núcleo (core) tiene su propio conjunto de campos obligatorios y recomendados para el conjunto de datos y para los metadatos del conjunto de datos asociados. Como ya sabe, los metadatos son los datos sobre sus datos y permiten a los usuarios saber si su conjunto de datos será apto para su uso.
No se detenga en los campos requeridos y recomendados. Cuantos más datos pueda compartir, más útil puede ser su conjunto de datos para los usuarios finales.
Encontrará los requisitos de calidad de los datos en la página web de GBIF.
Diapositiva 11 - Extensiones en el IPT
Se presentaron las extensiones en la presentación de Estándares. La publicación de un conjunto de datos es ahora donde los pondrá en uso. Como se mencionó anteriormente, GBIF mantiene la lista de extensiones aprobadas y en borrador en su subsitio de herramientas. Un administrador de IPT puede habilitar las extensiones aprobadas en un IPT de producción. Un administrador de IPT puede habilitar las extensiones de borrador en una IPT de prueba. Si conoce que tiene datos que no se pueden compartir con Simple Darwin Core, vale la pena revisar la lista de extensiones disponibles.
Si cree que no existe una extensión, intente comunicarse con miembros de la comunidad TDWG o publique en el sitio de asuntos de Darwin Core. Los miembros de la comunidad lo guiarán.
Diapositiva 12 - Archivo Darwin Core con extensiones
Also, in the standards presentation, you were introduced to Darwin Core Archives. In the near future we will begin preparing the community to consider or otherwise adopt the Darwin Core Data Package, but for now we will continue with Darwin Core Archives.
Este es un ejemplo de un Archivo de Darwin Core con extensiones.
Es un conjunto de datos de registros biológicos que ha sido publicado con imágenes, historial de determinación e información sobre GenBank.
Diapositiva 13 - Una relación entre núcleo y extensión
Hasta ahora, puede que haya sido difícil imaginar cómo se pueden relacionar dos archivos individuales. Un núcleo (core) con una extensión puede representar las siguientes relaciones.
-
1:0
-
1:1
-
1:muchos
El núcleo (core) siempre contendrá registros únicos. En este ejemplo que utiliza Núcleo de Lista de Especies (Taxon Core), cada taxón es único y está representado por un taxonID. En el archivo de extensión de nombres vernáculos, cada nombre vernáculo es único. Los tres primeros representan nombres comunes para la especie Struthio camelus (relación 1: muchos). El cuarto nombre representa el nombre común de la especie Alectoris chukar (relación 1: 1).
En este ejemplo, los taxones tercero y cuarto del archivo núcleo (core) no coinciden en el fichero de extensión. (relación 1:0).
Diapositiva 14 - Registro como publicador de datos en GBIF
Para terminar esta presentación, nos gustaría hablar del registro como publicador de datos en GBIF. Los pasos para registrarse fueron cubiertos en el curso Introducción a GBIF.
Las instituciones poseedoras de datos son listadas como publicadoras de datos cuando sus datos son compartidos con GBIF. Esto permite a los usuarios dar crédito y atribución a los datos/conjuntos de datos que pretenden utilizar para la investigación. Y una vez que los usuarios comiencen a utilizar el conjunto de datos, la página de publicadores en GBIF.org enlazará con la literatura que cite el conjunto de datos.
Diapositiva 15 - Objetivos del proceso de endoso de los publicación
Antes de que GBIF indexe los conjuntos de datos, la institución debe recibir apoyo como publicadora de datos de uno de los nodos Participantes que coordine las actividades de los participantes nacionales y organizacionales de la red GBIF. Si su país aún no participa, GBIF coordinará la solicitud de aprobación a través del Grupo Directivo de Nodos de GBIF (NSG).
Es importante realizar este paso en una fase temprana del proceso de publicación, ya que el endoso del publicador puede tardar hasta un mes en ser aprobado por un nodo participante o por el Grupo Director de Nodos (NSG).
El procedimiento de aprobación tiene por objeto garantizar que:
-
Los datos publicados son relevantes para el alcance y los objetivos de GBIF
-
Los acuerdos para el alojamiento de datos son estables y persistentes
-
La publicación y el uso de datos están respaldados por un fuerte compromiso nacional, regional y temático
-
Los datos son lo más abiertos posible y están disponibles para ser compartidos y reutilizados
-
Los editores de datos pueden responder a comentarios y mejorar la calidad de los datos
Una vez que un publicador recibe el endoso, puede comenzar a registrar sus conjuntos de datos publicados en GBIF. Tendrá más información al respecto durante la demostración del IPT.
Diapositiva 16 - Conclusión
This presentation is part of a series of presentations used in the GBIF Biodiversity Data Mobilization course. The biodiversity data mobilization curriculum was originally developed as part of the Biodiversity Information Development Programme funded by the European Union. This presentation was originally created by Sophie Pamerlon with additional contributions by Nicolas Noe, Laura Anne Russell and Dag Endresen, BID and BIFA Trainers, Mentors and students. Narration is by me, Melissa Liu.
Presentación y demostración de IPT
|
Durante esta demostración, recibirá una visión general de la interfaz de publicación de datos IPT y aprenderá a publicar un conjunto de datos de sucesos utilizando un IPT. |
Se realizará una demostración en directo. Visite IPT user manual para consultar la documentación completa.
Ejercicio 3
|
En este ejercicio, publicará un conjunto de datos de eventos utilizando el IPT. |
Publicación de datos
After cleaning the data in the dataset, the team considers that publishing the data online through GBIF could be a good way to make this effort visible. They plan on assigning the data with a CC0 waiver. You have been requested to lead that publishing work.
-
Download UC-Practice-3-ForPublication.xlsx. (22 KB)
-
Open the file in Excel and export each tab as an individual CSV file (resulting in 4 files for upload to the IPT).
-
Use the assigned IPT installation to publish the dataset and register it with GBIF.
-
Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.
Revisión
|
Pon a prueba tus conocimientos sobre los conceptos tratados en este módulo. Algunas preguntas pueden tener varias respuestas correctas. Puede leer más sobre las respuestas en el Apéndice de Soluciones. |