Accès aux données

Dans ce module, vous apprendrez comment les données du GBIF sont utilisées et comment on y accède. Vous apprendrez également comment gérer la qualité des données et les indicateurs de qualité des données du GBIF.

How is GBIF-mediated data used?

Le système de suivi de la littérature du GBIF a identifié plus de 5,000 utilisations des données médiatisées par GBIF, dont la plupart figurent dans des articles évalués par des pairs. La majorité de ces utilisations sont dans le domaine de l’écologie, mais d’autres concernent le changement climatique, la conservation, la santé humaine et l’agriculture. Une revue systématique de l’utilisation des données médiatisées par le GBIF par Heberling et al. (2020) a montré que :

  • Both data availability and data use have increased over time.

  • Data integration facilitates global research and access.

  • Uses of GBIF-mediated data span disciplinary boundaries.

  • The scientific areas using GBIF-mediated data are conceptually diverse and change in prevalence over time.

  • Globally integrated datasets enable researchers to ask both basic and applied questions at taxonomic, temporal and spatial scales that would be otherwise impossible.

  • The synergistic roles of observation- and specimen-based biodiversity data highlight the value and need for deeper integration with phylogenetic, environmental, phenotypic, ecological and genetic sources of data.

fig3
Structural topic model results from 4,035 studies that used GBIF-mediated data published between 2003 and 2019.

GBIF-mediated data is also used for monitoring the state of biodiversity and progress towards achieving the targets of the Convention on Biological Diversity. The increase in availability of GBIF occurrence data is one of the indicators for tracking progress towards the achievement of Aichi Biodiversity target 19 and GBIF is a key data source in the creation of a number of other indicators, including the Species Status Information Index, Species Habitat Index and the Biodiversity Habitat Index.

While the utility of GBIF-mediated data is clear, the wide variety of sources of data accessible through GBIF, spanning museum collections, citizen science, metagenomics, among others, means that not all GBIF-mediated data will be fit for every use. Key components of using GBIF-mediated data are understanding how to access the specific data that you need from what is available in GBIF and understanding some of the common data quality issues that affect the data so as to facilitate processing of the data before analysis.

Accéder aux données du GBIF

L’utilisation du site web ne nécessite aucune expérience en programmation et permet des fonctions de recherche, de filtrage et de téléchargement rapides et faciles pour les données du GBIF, ainsi qu’une série d’outils et de mesures supplémentaires qui ne sont pas disponibles par le biais des services API.

Les services API permettent un accès continu aux données du GBIF par le biais d’autres systèmes et peuvent servir de base au développement d’outils permettant d’interroger les données.

Les exemples incluent rgbif, CoordinateCleaner, et pygbif, ainsi que des outils spécialisés qui permettent des cas d’utilisation plus spécifiques, tels que GeoCat pour les évaluations de la Liste rouge.

En ce qui concerne les jeux de données basés sur le cloud, le GBIF met des données à disposition sur Microsoft Planetary Computer (Azure), en tant que Amazon AWS Open Dataset et sur un Google GCS bucket public et BigQuery table. Lorsque vous utilisez des instantanés basés sur le cloud, nous recommandons toujours de créer une Derived Dataset citation pour les enregistrements que vous utilisez. Lorsque vous faites référence à l’ensemble de données complet, veuillez utiliser les citations appropriées indiquées sur la page ensembles de données hébergés dans le cloud.

What is available to me?

Through the search functions on the website, users can access data that can either be directly downloaded through GBIF or accessed from the original sources following links that GBIF provides.

Remember that as a data user you should read and agree with the terms of the GBIF Data User Agreement that include correctly citing the use of GBIF-mediated data.
downloadoptions

The data available to you are:

  • Primary biodiversity data - occurrence, checklist and sampling event data that is provided to users through the one of the 3 download formats:

    • Simple: Tab delimited CSV. Only contains the data after GBIF interpretation. No multimedia included.

    • Darwin Core Archive: The Darwin Core Archive (DwC-A) contains both the original data as the publisher provided it and the GBIF interpretation. Links (but not files) to multimedia included.

    • Species list: Tab delimited CSV with the distinct list of names in the search result and as a map visualization of the data.

    • Cube : Un cube d’occurrence est un fichier csv séparé par des tabulations contenant des mesures d’occurrence d’espèces (par exemple un comptage) résumées par des dimensions taxonomiques, temporelles et/ou spatiales (par exemple une année donnée, un rang taxonomique spécifique, etc.).

  • A range of metrics are provided for countries and regions, data publishers, datasets and data searches that provide taxonomic breakdowns, trends in data collection and highlight data quality issues. For countries, these metrics can be also be downloaded in the form of a PDF activity report.

  • Searchable database of publications that have used GBIF-mediated data.

Searches can be performed on the occurrences, species, datasets, publishers and resources, and each search function carries a set of filters that allow for more refined searching and additional data associated with the data, for example, images, can be found in tabs associated with the search.

Formats de téléchargement des occurrences sont entièrement décrits dans la documentation technique du GBIF.

Gérer la qualité des données

Déterminer la précision et l’exactitude des données à utiliser est une étape clé pour déterminer l’utilité des données pour tout objectif prévu. Bien que le GBIF puisse contribuer à l’identification de certains problèmes de qualité qui surviennent dans le cadre du flux de publication des données, le traitement de certains problèmes de qualité nécessite des connaissances spécialisées supplémentaires. Les deux problèmes les plus courants pour lesquels elles peuvent être nécessaires sont les suivants :

  • Carences en données - l’échantillonnage entre les groupes taxonomiques et les régions géographiques n’est pas égal et les utilisateurs peuvent avoir besoin de prendre en compte le biais d’échantillonnage dans leurs analyses avant que les données puissent être utilisées efficacement.

  • Mauvaise identification taxonomique - certains groupes taxonomiques peuvent nécessiter des informations supplémentaires pour s’assurer que les taxons ont été correctement identifiés tels que les images, vidéos et enregistrements audio qui accompagnent les données ou les informations sur le collecteur.

Les signaux GBIF pour les problèmes de qualité des données

Les problèmes de qualité des données et les signaux sont décrits dans la documentation technique du GBIF.

Pendant le processus d’indexation, le GBIF assigne des problèmes et des signaux aux données pour les problèmes courants de qualité des données. Ceux-ci se produisent le plus souvent à partir d’erreurs de saisie de données ou de champs de données manquants dont l’interprétation peut être automatisée centralement par GBIF. Ces interprétations sont classées comme :

  • Exclues - lorsque les données originales n’ont pas pu être interprétées, elles sont donc exclues des champs interprétés.

  • Modifiées - lorsque les données originales sont modifiées dans le processus d’interprétation pour les indexer sur GBIF.org.

  • Inférées - lorsqu’un champ vide est déduit en utilisant d’autres informations de l’enregistrement.

Sachez que si vous filtrez pour des problèmes de qualité des données, vous devriez inverser le filtre pour exclure les données qui ont été signalées avec ce problème. Vous pouvez également voir les données verbatim c’est-à-dire les données non interprétées dans une Archive Darwin Core si vous souhaitez valider le processus d’interprétation.

Comment puis-je améliorer la qualité des données ?

Les fournisseurs de données ont la responsabilité d’améliorer la qualité des données, et en tant qu’utilisateur, vous jouez un rôle clé dans l’identification des erreurs. Si vous trouvez une erreur dans les données, vous devez contacter directement l’éditeur en utilisant les coordonnées fournies par GBIF sur la page de l’éditeur. Le GBIF permet également aux utilisateurs d’enregistrer les problèmes de qualité des données en utilisant le bouton "Commentaires et questions" sur la barre du menu de GBIF.org.

Guides et documentation

Le GBIF soutient sa communauté mondiale en offrant des guides et de la documentation complets, permettant la mobilisation, le partage et l’application réfléchie des informations sur la biodiversité.

Guides

Le GBIF produit des https://www.gbif.org/composition/3NZQV4dMHw154WEwu4TqDw/guides-and-documentation#_gbif-digital-guides [guides numériques^] sur une série de sujets liés à l’informatique de la biodiversité et aux données ouvertes sur la biodiversité afin de soutenir la communauté de pratique.

Documentation technique

La documentation technique du GBIF fournit des informations sur l’accès, l’extraction et la citation des données sur la biodiversité, ainsi qu’un aperçu de la qualité des données, des meilleures pratiques en matière de publication et des ressources pour les outils et les normes qui soutiennent le partage des données.

Blog de données GBIF

Le GBIF blog de données est un endroit où le personnel du GBIF et les blogueurs invités peuvent contribuer des :

  • Statistiques

  • Graphiques

  • Tutoriels

  • Idées

  • Opinions

Révision

Testez vos connaissances sur les concepts abordés dans ce module. Certaines questions peuvent comporter plusieurs réponses correctes.

Vous pouvez en savoir plus sur les réponses dans le Annexe des solutions.

  1. Comment pouvez-vous accéder aux données GBIF ?

    • Interface de recherche GBIF.org

    • API GBIF

    • rGBIF

    • pyGBIF

    • instantanés d’occurrences dans le cloud

    • Interface de recherche GBIF.org

    • API GBIF

    • rGBIF

    • pyGBIF

    • instantanés d’occurrences dans le cloud

  2. Quels formats de fichier sont disponibles pour les téléchargements de données ?

    • simple

    • XML

    • Darwin Core Archive

    • liste des espèces

    • cube

    • simple

    • XML

    • Darwin Core Archive

    • liste des espèces

    • cube

  3. Quel type de signaux le GBIF applique-t-il aux données pour vous alerter sur leur qualité ?

    • altéré

    • modifié

    • traduit

    • exclu

    • interprété

    • déduit

    • altéré

    • modifié

    • traduit

    • exclu

    • interprété

    • déduit