Acceso a los datos

En este módulo aprenderá cómo se utilizan los datos de GBIF y cómo se accede a ellos. También aprenderá sobre el manejo de la calidad de los datos y las alertas de calidad de los datos de GBIF.

¿Cómo se utilizan los datos mediados por GBIF?

El sistema de seguimiento de literatura de GBIF ha identificado más de 5,000 usos de datos mediados por GBIF, la mayoría de los cuales están en artículos revisados por pares. La mayoría de estos usos se encuentran en el ámbito de la ecología, pero otros están relacionados con el cambio climático, la conservación, la salud humana y la agricultura. Una revisión sistemática del uso de datos mediados por GBIF de Heberling et al. (2020) mostró:

  • Tanto la disponibilidad de datos como el uso de datos han aumentado con el tiempo.

  • La integración de datos facilita la investigación y el acceso mundiales.

  • Los usos de los datos mediados por GBIF traspasan los límites disciplinarios.

  • Las áreas científicas que utilizan los datos mediados por GBIF son conceptualmente diversas y cambian su prevalencia con el tiempo.

  • Los conjuntos de datos integrados a nivel mundial permiten a los investigadores hacer preguntas tanto básicas como aplicadas a escalas taxonómicas, temporales y espaciales que, de lo contrario, serían imposibles.

  • Las funciones sinérgicas de los datos de biodiversidad basados en la observación y en los especímenes ponen de manifiesto el valor y la necesidad de una mayor integración con las fuentes de datos filogenéticos, ambientales, fenotípicos, ecológicos y genéticos.

fig3
El modelo de tema estructural es el resultado de 4.035 estudios que utilizaron datos mediados por GBIF, publicados entre 2003 y 2019.

Los datos mediados por GBIF también se utilizan para supervisar el estado de la biodiversidad y el progreso hacia la consecución de los objetivos del "Convenio sobre la diversidad biológica". El aumento de la disponibilidad de los datos de ocurrencia de GBIF es uno de los indicadores para el seguimiento del progreso hacia la consecución de la meta 19 de Aichi para la Biodiversidad y GBIF es una fuente de datos clave en la creación de una serie de otros indicadores, incluyendo el Índice de información sobre el estado de las especies, el Índice de hábitat de las especies y el Índice de Hábitat de Biodiversidad.

Aunque la utilidad de los datos mediados por GBIF es evidente, la gran variedad de fuentes de datos accesibles a través de GBIF, que abarcan las colecciones de los museos, la ciencia ciudadana, la metagenómica, entre otros, significa que no todos los datos mediados por GBIF serán adecuados para todos los usos. Los componentes clave del uso de los datos mediados por GBIF son: entender cómo acceder a los datos específicos que necesita a partir de lo que está disponible en GBIF y comprender algunos de los problemas comunes de calidad de datos que afectan a los datos para facilitar su procesamiento antes del análisis.

Accediendo a datos mediados por GBIF

Hay tres puntos de acceso a los datos mediados por GBIF: GBIF.org, los servicios de Interfaz de Programación de Aplicaciones (API), y conjuntos de datos basados en la nube.

El uso de la página web no requiere experiencia en programación y permite funciones rápidas y sencillas de búsqueda, filtrado y descarga de datos intermediados por GBIF, así como una serie de herramientas y métricas adicionales que no están disponibles a través de los servicios API.

Los servicios API permiten el acceso continuado a los datos mediados por GBIF a través de otros sistemas y pueden ser la base para el desarrollo de herramientas que permitan la interrogación de los datos.

Algunos ejemplos son rgbif, CoordinateCleaner y pygbif, así como herramientas especializadas que permiten casos de uso más específicos, como GeoCat para evaluaciones de la Lista Roja.

Con respecto a los conjuntos de datos basados en la nube, GBIF pone los datos a disposición en Microsoft Planetary Computer (Azure), como Amazon AWS Open Dataset y en un Google GCS bucket y BigQuery table públicos. Cuando utilice instantáneas basadas en la nube, siempre recomendamos crear una Cita de conjunto de datos derivados para los registros que utilice. Cuando haga referencia al conjunto de datos completo, utilice las citas apropiadas que aparecen en la página conjuntos de datos basados en la nube.

¿Qué está disponible para mí?

A través de las funciones de búsqueda en el sitio web los usuarios pueden acceder a los datos, que pueden descargarse directamente a través de GBIF o desde las fuentes originales siguiendo los enlaces que proporciona GBIF.

Recuerde que como usuario de datos debe leer y aceptar los términos del GBIF "Acuerdo de Uso de datos" que incluyen cómo citar correctamente el uso de datos mediados por GBIF.
downloadoptions

Los datos disponibles para usted son:

  • Datos primarios de biodiversidad: datos de registros biológicos, listas de especies y eventos de muestreo que se proporcionan a los usuarios a través de uno de los 3 formatos de descarga:

    • Simple: CSV delimitado por tabulaciones. Solo contiene los datos después de la interpretación de GBIF. No incluye multimedia.

    • Archivo Darwin Core: Archivo Darwin Core (DwC-A) contiene tanto los datos originales tal como los proporcionó el publicador como la interpretación de GBIF. También, incluye enlaces (pero no archivos) a multimedia.

    • Lista de especies: CSV delimitado por tabulaciones que contiene la lista de nombres distintos incluidos en el resultado de la búsqueda y una visualización en un mapa de los datos.

    • Cube: Un cubo de registro biológico es un archivo csv separado por tabuladores que contiene medidas de registros de especies (por ejemplo, un recuento) resumidas por dimensiones taxonómicas, temporales y/o espaciales (por ejemplo, un año determinado, un rango taxonómico específico, etc.).

  • Se ofrecen una serie de métricas para países y regiones, publicadores de datos, conjuntos de datos y búsquedas de datos que proporcionan desgloses taxonómicos, tendencias en la recopilación de datos y destacan los problemas de calidad de los datos. En el caso de los países, estas métricas también pueden descargarse en forma de informe de actividad en PDF.

  • Base de datos de publicaciones que han utilizado datos mediados por GBIF.

Se pueden realizar búsquedas en la página https://www.gbif.org/occurrence/search? species, datasets, publishers y resources, y cada función de búsqueda conlleva un conjunto de filtros que permiten una búsqueda más refinada, y en las pestañas asociadas a la búsqueda se pueden encontrar datos adicionales asociados a los datos, por ejemplo, images.

Los formatos de descarga de registros biológicos están completamente documentados en la documentación técnica de GBIF.

Manejo de la calidad de los datos

Determinar la precisión y exactitud de los datos para su uso es un paso clave para determinar la utilidad de los datos para cualquier propósito previsto. Mientras que GBIF puede apoyar la identificación de algunos problemas de calidad que surgen del flujo de trabajo de publicación de datos, manejar algunos problemas de calidad requiere conocimientos expertos adicionales. Los dos problemas más comunes para los que esto puede ser necesario son:

  • Vacíos de datos - el muestreo entre grupos taxonómicos y regiones geográficas no es igual y los usuarios pueden necesitar tener en cuenta el sesgo de muestreo en sus análisis antes de que los datos puedan ser utilizados eficazmente.

  • Identificación taxonómica errónea - algunos grupos taxonómicos pueden requerir información adicional, para asegurar que los taxa hayan sido identificados correctamente, como imágenes, videos y grabaciones de audio que acompañan a la información asociada a los datos o colectores.

Alertas de GBIF para problemas de calidad de datos

Problemas y banderas de calidad de datos están documentados en la documentación técnica de GBIF.

Durante el proceso de indexación, GBIF asigna incidencias y alertas a los datos que tienen problemas comunes de calidad de datos. Éstos se producen con mayor frecuencia por errores de datos u omisión de campos cuya interpretación puede ser automatizada de forma centralizada por GBIF. Estas interpretaciones están clasificadas como:

  • Excluido - cuando los datos originales no pudieron ser interpretados, por lo cual se excluyen en los campos interpretados.

  • Alterado - cuando los datos originales son modificados en el proceso de interpretación para ser indexados en GBIF.org.

  • Inferido - cuando un campo vacío es inferido usando otra información del registro.

Tenga en cuenta que si está filtrando por problemas de calidad de datos, debería revertir el filtro para excluir aquellos datos que han sido marcados con ese problema. También puede ver los datos originales, es decir, los datos no interpretados en un archivo de Darwin Core, si desea validar el proceso de interpretación.

¿Cómo puedo mejorar la calidad de los datos?

Los publicadores tienen la responsabilidad de mejorar la calidad de los datos y, como usuario, usted juega un papel clave en la identificación de errores. Si encuentra un error en los datos, debe ponerse en contacto con el publicador directamente utilizando los datos de contacto que GBIF proporciona en la página del publicador. GBIF también proporciona a los usuarios la posibilidad de registrar problemas de calidad de datos mediante el botón "Comentarios y preguntas" en la barra de menú de GBIF.org.

Guías y documentación

GBIF apoya a su comunidad global ofreciéndole guías y documentación exhaustivas, que permiten movilizar, compartir y aplicar de forma reflexiva la información sobre biodiversidad.

Guías

GBIF produce guías digitales sobre una serie de temas relacionados con la informática de la biodiversidad y los datos abiertos sobre biodiversidad para apoyar a la comunidad de práctica.

Documentación técnica

La documentación técnica de GBIF ofrece orientación sobre el acceso, la recuperación y la cita de datos sobre biodiversidad, con información sobre la calidad de los datos, las mejores prácticas de publicación y recursos para herramientas y normas que apoyan el intercambio de datos.

Blog de datos de GBIF

El blog de GBIF blog de datos es un lugar donde el personal de GBIF y los blogueros invitados pueden contribuir:

  • Estadísticas

  • Gráficos

  • Tutoriales

  • Ideas

  • Opiniones

Revisión

Pon a prueba tus conocimientos sobre los conceptos tratados en este módulo. Algunas preguntas pueden tener varias respuestas correctas.

Puede leer más sobre las respuestas en el Apéndice de Soluciones.

  1. ¿Cómo se puede acceder a los datos de GBIF?

    • Interfaz de búsqueda de GBIF.org

    • API de GBIF

    • rGBIF

    • pyGBIF

    • Instantáneas de registros en la nube

    • Interfaz de búsqueda de GBIF.org

    • API de GBIF

    • rGBIF

    • pyGBIF

    • Instantáneas de registros en la nube

  2. ¿Qué formatos de archivo están disponibles para la descarga de datos?

    • simple

    • XML

    • Darwin Core Archive

    • lista de especies

    • cube

    • simple

    • XML

    • Darwin Core Archive

    • lista de especies

    • cube

  3. ¿Qué tipo de banderas aplica GBIF a los datos para alertar de su calidad?

    • enmendado

    • traducido

    • excluido

    • interpretado

    • inferido

    [x] Alterado - [ ] enmendado - [ ] traducido - [x] excluido - [ ] interpretado - [x] inferido