Publicación de datos

En este módulo, aprenderá sobre conceptos de publicación de datos, incluyendo IPT, núcleos y extensiones, y la importancia de las licencias, metadatos, campos obligatorios y alojamiento de conjuntos de datos.

Conceptos de publicación de datos

En esta presentación, conocerá los conceptos de publicación de datos y recibirá una introducción al Integrated Publishing Toolkit (IPT).

 

 

Presentation transcript

Haga clic para ampliar

 

publishing concepts Slide1

Diapositiva 1 - Conceptos de publicación de datos

En esta presentación, lo introduciremos a el concepto de Publicación de Datos. También le presentaremos la Herramientas de Integrada de Publicación de GBIF (IPT).

Foto: Euphorbia royleana Boiss. Observado en Nepal por Yaling Lin CC BY-NC 4.0

publishing concepts Slide2

Diapositiva 2 - Compartir tus datos

Llegados a este punto del curso, ya ha completado todas las secciones de un proyecto de movilización. Ahora está listo para compartir tus datos. Ha generado un conjunto de datos limpio y estandarizado, y desea compartirlo y visualizarlo en el portal de datos de GBIF.

publishing concepts Slide3

Diapositiva 3 - Publicación de datos

Pero no se trata solo de entregar una hoja de cálculo o un archivo de texto a GBIF. Hay que publicar los datos.   La publicación de datos consiste en hacer que los conjuntos de datos de biodiversidad sean accesibles al público, localizables y lo más abiertos posible, en un formato estandarizado (por ejemplo, Darwin Core), a través de un punto de acceso. Este punto de acceso es una URL, una dirección web.   La mayoría de las organizaciones dentro de la Red GBIF, también conocidas como publicadoras, utilizan un IPT (Integrated Publishing Toolkit) para publicar sus datos. Estos publicadores pueden optar por alojar su propia instalación de un IPT, como el Museo Field, pero generalmente prefieren encontrar un proveedor adecuado para sus actividades de publicación de datos. Esto podría ser a través de un Nodo Participante GBIF establecido o a través de un grupo temático establecido como VertNet. Otra opción podría ser utilizar uno de los IPT regionales de GBIF.  Si formas parte de grupos como las Comunidades de Symbiota o Living Atlases, disponen de otros medios para ayudarle a publicar sus datos en GBIF.

publishing concepts Slide4

Diapositiva 4 - Exención de responsabilidad y licencias de Creative Commons

La diapositiva anterior menciona el acto no solo de hacer que los datos sean accesibles, sino de hacerlos lo más abiertos posible.

En un esfuerzo por documentar el nivel de apertura de un conjunto de datos, GBIF mantiene, de acuerdo con una decisión de 2014 del consejo de gobierno de GBIF, que todos los datos publicados y registrados para su uso en el portal de GBIF, deben ser emitidos con una de las tres opciones de Creative Commons:

  • CC0, una exención para los datos disponibles para cualquier uso sin restricciones

  • CC BY, una licencia para datos disponibles para cualquier uso con la atribución apropiada

  • CC BY-NC, una licencia para datos disponibles para cualquier uso no comercial con la debida atribución.

INFORMACIÓN: Las licencias CC-BY-NC tienen un efecto significativo en la reutilización de los datos.

GBIF anima a los editores de datos a elegir la opción más abierta posible siempre que sea posible.

Los proyectos financiados mediante fondos gestionados por GBIF deben utilizar las opciones CC0 o CC BY.

publishing concepts Slide5

Diapositiva 5 - Integrated Publishing Toolkit

El Integrated Publishing Toolkit (IPT) es una herramienta de software libre y de código abierto escrita en Java que se utiliza para publicar y compartir conjuntos de datos de biodiversidad a través de la red GBIF. La primera versión de IPT se lanzó en 2009. Fue rediseñada y relanzada en 2011. Desde entonces, IPT se ha actualizado continuamente con nuevas funciones, correcciones de errores y mejoras de seguridad.

Aunque el IPT es mantenido en GBIF, la comunidad de desarrolladores informáticos de biodiversidad puede contribuir a su desarrollo.

Algunas de las características incluyen:

  • Principal (pero no única) herramienta de publicación de GBIF.

  • Un IPT puede albergar muchos conjuntos de datos, en nombre de varias instituciones, cada una de ellas claramente representada

  • Modo de prueba y modo de producción

  • Multilingüe: se ha traducido a 7 idiomas.

Es un software de servidor, por lo que necesita una conexión estable y requiere administración técnica. Por eso muchas instituciones optan por publicar sus datos en IPT alojados.

Encontrará más información sobre el alojamiento de datos en la página web de GBIF.

Durante el resto de nuestro curso, demostraremos y completaremos ejercicios usando el IPT.

publishing concepts Slide6

Diapositiva 6 - Elección de un núcleo de publicación

Ahora estamos recopilando lo que aprendiste en las dos primeras presentaciones de la sección Captura de datos sobre estándares, Darwin Core y tipos de datos.   En esencia, el IPT se basa en Darwin Core y su guía de texto, así como en sus recomendaciones para compartir datos en un archivo Darwin Core. Darwin Core contiene tres núcleos de datos distintos que se corresponden con hasta tres de los tipos de conjuntos de datos que acepta GBIF.   Tener en mente: * Cada conjunto de datos tiene uno y sólo un archivo Núcleo (core) * Cada archivo del Núcleo (core) corresponde a un tipo de conjunto de datos: registro biológico, listado taxonómico o evento de muestreo. * Cada conjunto de datos puede tener uno o más archivos de extensiones * El objetivo de una extensión es añadir nuevos campos de datos no presentes en el núcleo (core). * Cada entrada del archivo núcleo (core) está vinculada a cero, una o varias filas de un archivo de extensión. * Cada fila de un archivo de extensión hace referencia a una y sólo una fila del archivo núcleo (core).

Algunos ejemplos:

  • El Núcleo (core) es Registro Biológico (Occurrence), no hay extensiones

  • El Núcleo (core) es Registro Biológico (Occurrence), con la extensión "multimedia"

  • El Núcleo (core) es Registro Biológico (Occurrence), con extensiones multimedia sencillas y las extensiones de medición o hechos (measurementorfact)

  • El Núcleo (core) es Listado de Especies (Taxon), no hay extensiones

  • El Núcleo (core) es Listado de Especies (Taxon), con la extensión de distribución de especies

  • El Núcleo (core) es Evento de Muestreo (Event) con la extensión de Medición o hechos (measurementorfact)

Foto: Pieris formosa (Wall.) D.Don Observado en Nepal por Neil Alderson http://creativecommons.org/publicdomain/zero/1.0/[CC0 1.0]

publishing concepts Slide7

Diapositiva 7 - Núcleo de Registro Biológico

El primer Núcleo (core) es el Núcleo de Registro Biológico (Occurrence Core). Como recordatorio, es el conjunto de datos de sucesos contiene un individuo o un grupo de individuos. Cada fila tiene un identificador único, un occurrenceID. Otros campos para los datos de registro biológico incluyen dónde, cuándo, cómo y por quién se observó y / o recopiló cada registro en el campo.

publishing concepts Slide8

Diapositiva 8 - Núcleo de Taxon

La siguiente opción es el núcleo (core) Listado de Especies (Taxon). Como recordatorio, un conjunto de datos de listadp de especies contiene conceptos taxonómicos, no individuos. Es un "catálogo o lista de organismos o taxones con nombre". Cada fila tendrá un taxonID. Cada taxón debe ser único.

publishing concepts Slide9

Diapositiva 9 - Datos de Evento de Muestreo

La última opción es el núcleo (core) del Evento de muestro (Event). Como recordatorio, los conjuntos de datos de eventos de muestreo permiten a los publicadores de datos proporcionar más detalles, no solo ofreciendo evidencia de que una especie ocurrió en un lugar y fecha determinados, sino también haciendo posible evaluar la composición de la comunidad para grupos taxonómicos más amplios o incluso la abundancia de especies en múltiples tiempos y lugares. Al indicar los métodos, los eventos y la abundancia relativa de especies registradas en una muestra, estos conjuntos de datos mejoran las comparaciones con los datos recopilados utilizando los mismos protocolos en diferentes momentos y lugares; en algunos casos, incluso llevan a los investigadores a inferir la ausencia de especies particulares en sitios particulares.

Cada fila tendrá un EventID. Cada evento debe ser único.

publishing concepts Slide10

Diapositiva 10 - Requisitos de calidad de los datos

Este es un buen punto para revisar todos los campos requeridos por GBIF. Si no se proporcionan los campos obligatorios, GBIF tendrá dificultades para indexar su conjunto de datos.

Cada núcleo (core) tiene su propio conjunto de campos obligatorios y recomendados para el conjunto de datos y para los metadatos del conjunto de datos asociados. Como ya sabe, los metadatos son los datos sobre sus datos y permiten a los usuarios saber si su conjunto de datos será apto para su uso.

No se detenga en los campos requeridos y recomendados. Cuantos más datos pueda compartir, más útil puede ser su conjunto de datos para los usuarios finales.

Encontrará los requisitos de calidad de los datos en la página web de GBIF.

publishing concepts Slide11

Diapositiva 11 - Extensiones en el IPT

Se presentaron las extensiones en la presentación de Estándares. La publicación de un conjunto de datos es ahora donde los pondrá en uso. Como se mencionó anteriormente, GBIF mantiene la lista de extensiones aprobadas y en borrador en su subsitio de herramientas. Un administrador de IPT puede habilitar las extensiones aprobadas en un IPT de producción. Un administrador de IPT puede habilitar las extensiones de borrador en una IPT de prueba. Si conoce que tiene datos que no se pueden compartir con Simple Darwin Core, vale la pena revisar la lista de extensiones disponibles.

Si cree que no existe una extensión, intente comunicarse con miembros de la comunidad TDWG o publique en el sitio de asuntos de Darwin Core. Los miembros de la comunidad lo guiarán.

publishing concepts Slide12

Diapositiva 12 - Archivo Darwin Core con extensiones

Also, in the standards presentation, you were introduced to Darwin Core Archives. In the near future we will begin preparing the community to consider or otherwise adopt the Darwin Core Data Package, but for now we will continue with Darwin Core Archives.

Este es un ejemplo de un Archivo de Darwin Core con extensiones.

Es un conjunto de datos de registros biológicos que ha sido publicado con imágenes, historial de determinación e información sobre GenBank.

publishing concepts Slide13

Diapositiva 13 - Una relación entre núcleo y extensión

Hasta ahora, puede que haya sido difícil imaginar cómo se pueden relacionar dos archivos individuales. Un núcleo (core) con una extensión puede representar las siguientes relaciones.

  • 1:0

  • 1:1

  • 1:muchos

El núcleo (core) siempre contendrá registros únicos. En este ejemplo que utiliza Núcleo de Lista de Especies (Taxon Core), cada taxón es único y está representado por un taxonID. En el archivo de extensión de nombres vernáculos, cada nombre vernáculo es único. Los tres primeros representan nombres comunes para la especie Struthio camelus (relación 1: muchos). El cuarto nombre representa el nombre común de la especie Alectoris chukar (relación 1: 1).

En este ejemplo, los taxones tercero y cuarto del archivo núcleo (core) no coinciden en el fichero de extensión. (relación 1:0).

publishing concepts Slide14

Diapositiva 14 - Registro como publicador de datos en GBIF

Para terminar esta presentación, nos gustaría hablar del registro como publicador de datos en GBIF. Los pasos para registrarse fueron cubiertos en el curso Introducción a GBIF.

Las instituciones poseedoras de datos son listadas como publicadoras de datos cuando sus datos son compartidos con GBIF. Esto permite a los usuarios dar crédito y atribución a los datos/conjuntos de datos que pretenden utilizar para la investigación. Y una vez que los usuarios comiencen a utilizar el conjunto de datos, la página de publicadores en GBIF.org enlazará con la literatura que cite el conjunto de datos.

publishing concepts Slide15

Diapositiva 15 - Objetivos del proceso de endoso de los publicación

Antes de que GBIF indexe los conjuntos de datos, la institución debe  recibir apoyo como publicadora de datos  de uno de los nodos Participantes que coordine las actividades de los participantes  nacionales y organizacionales de la red GBIF. Si su país aún no participa, GBIF coordinará la solicitud de aprobación a través del  Grupo Directivo de Nodos de GBIF  (NSG).

Es importante realizar este paso en una fase temprana del proceso de publicación, ya que el endoso del publicador puede tardar hasta un mes en ser aprobado por un nodo participante o por el Grupo Director de Nodos (NSG).

El procedimiento de aprobación tiene por objeto garantizar que:

  • Los datos publicados son relevantes para el alcance y los objetivos de GBIF

  • Los acuerdos para el alojamiento de datos son estables y persistentes

  • La publicación y el uso de datos están respaldados por un fuerte compromiso nacional, regional y temático

  • Los datos son lo más abiertos posible y están disponibles para ser compartidos y reutilizados

  • Los editores de datos pueden responder a comentarios y mejorar la calidad de los datos

Una vez que un publicador recibe el endoso, puede comenzar a registrar sus conjuntos de datos publicados en GBIF. Tendrá más información al respecto durante la demostración del IPT.

publishing concepts Slide16

Diapositiva 16 - Conclusión

This presentation is part of a series of presentations used in the GBIF Biodiversity Data Mobilization course. The biodiversity data mobilization curriculum was originally developed as part of the Biodiversity Information Development Programme funded by the European Union.   This presentation was originally created by Sophie Pamerlon with additional contributions by Nicolas Noe, Laura Anne Russell and Dag Endresen, BID and BIFA Trainers, Mentors and students. Narration is by me, Melissa Liu.

Presentación y demostración de IPT

Durante esta demostración, recibirá una visión general de la interfaz de publicación de datos IPT y aprenderá a publicar un conjunto de datos de sucesos utilizando un IPT.

Se realizará una demostración en directo. Visite IPT user manual para consultar la documentación completa.

Ejercicio 3

En este ejercicio, publicará un conjunto de datos de eventos utilizando el IPT.

Publicación de datos

After cleaning the data in the dataset, the team considers that publishing the data online through GBIF could be a good way to make this effort visible. They plan on assigning the data with a CC0 waiver. You have been requested to lead that publishing work.

  1. Download UC-Practice-3-ForPublication.xlsx. (22 KB)

  2. Open the file in Excel and export each tab as an individual CSV file (resulting in 4 files for upload to the IPT).

  3. Use the assigned IPT installation to publish the dataset and register it with GBIF.

  4. Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.

Revisión

Pon a prueba tus conocimientos sobre los conceptos tratados en este módulo. Algunas preguntas pueden tener varias respuestas correctas.

Puede leer más sobre las respuestas en el Apéndice de Soluciones.

  1. ¿Qué significa la publicación de datos en el contexto de GBIF?

    • Exportar un archivo csv de sus datos limpios que puede compartir con sus colegas

    • Escribir un artículo que describa sus datos, y el/los protocolo(s) que utilizó para recolectarlos, capturarlos y limpiarlos

    • Hacer públicamente accesibles sus datos de biodiversidad en un formato estandarizado

    • Exportar un archivo csv de sus datos limpios que puede compartir con sus colegas

    • Escribir un artículo que describa sus datos, y el/los protocolo(s) que utilizó para recolectarlos, capturarlos y limpiarlos

    • Hacer públicamente accesibles sus datos de biodiversidad en un formato estandarizado

  2. ¿Qué es un IPT?

    • una herramienta que lo ayuda a administrar y corregir sus datos

    • una herramienta que le ayuda a publicar sus datos en GBIF

    • una herramienta que le ayuda a producir una publicación de datos (Data Paper)

    • una herramienta que lo ayuda a administrar y corregir sus datos

    • una herramienta que le ayuda a publicar sus datos en GBIF

    • una herramienta que le ayuda a producir una publicación de datos (Data Paper)

  3. ¿Qué licencias y exenciones de Creative Commons son recomendadas por GBIF para la publicación de datos?

    • CC-BY, CC-BY-SA y CC-BY-ND

    • CC0, CC-BY y CC-BY-NC

    • CC0, CC-BY y CC-BY-SA

    • CC-BY, CC-BY-SA y CC-BY-ND

    • CC0, CC-BY y CC-BY-NC

    • CC0, CC-BY y CC-BY-SA

  4. ¿Cuáles son los tres Núcleos (Cores) entre los que puedes elegir un recurso IPT?

    • Metadata Core, Occurrence Core, Multimedia Core

    • Taxon Core, Collection Core, MeasurementOrFact Core

    • Occurrence Core, Taxon Core, Event Core

    • Metadata Core, Occurrence Core, Multimedia Core

    • Taxon Core, Collection Core, MeasurementOrFact Core

    • Occurrence Core, Taxon Core, Event Core

  5. ¿Cuántos archivos de Extensiones puede tener un conjunto de datos?

    • cero

    • una

    • tantos como sea necesario

    • cero

    • una

    • tantos como sea necesario