Accès aux données
| Dans ce module, vous apprendrez comment les données du GBIF sont utilisées et comment on y accède. Vous apprendrez également comment gérer la qualité des données et les indicateurs de qualité des données du GBIF. |
How is GBIF-mediated data used?
Le système de suivi de la littérature du GBIF a identifié plus de 5,000 utilisations des données médiatisées par GBIF, dont la plupart figurent dans des articles évalués par des pairs. La majorité de ces utilisations sont dans le domaine de l’écologie, mais d’autres concernent le changement climatique, la conservation, la santé humaine et l’agriculture. Une revue systématique de l’utilisation des données médiatisées par le GBIF par Heberling et al. (2020) a montré que :
-
Both data availability and data use have increased over time.
-
Data integration facilitates global research and access.
-
Uses of GBIF-mediated data span disciplinary boundaries.
-
The scientific areas using GBIF-mediated data are conceptually diverse and change in prevalence over time.
-
Globally integrated datasets enable researchers to ask both basic and applied questions at taxonomic, temporal and spatial scales that would be otherwise impossible.
-
The synergistic roles of observation- and specimen-based biodiversity data highlight the value and need for deeper integration with phylogenetic, environmental, phenotypic, ecological and genetic sources of data.
GBIF-mediated data is also used for monitoring the state of biodiversity and progress towards achieving the targets of the Convention on Biological Diversity. The increase in availability of GBIF occurrence data is one of the indicators for tracking progress towards the achievement of Aichi Biodiversity target 19 and GBIF is a key data source in the creation of a number of other indicators, including the Species Status Information Index, Species Habitat Index and the Biodiversity Habitat Index.
While the utility of GBIF-mediated data is clear, the wide variety of sources of data accessible through GBIF, spanning museum collections, citizen science, metagenomics, among others, means that not all GBIF-mediated data will be fit for every use. Key components of using GBIF-mediated data are understanding how to access the specific data that you need from what is available in GBIF and understanding some of the common data quality issues that affect the data so as to facilitate processing of the data before analysis.
Accéder aux données du GBIF
There are three points of access to GBIF-mediated data: GBIF.org, the Application Programming Interface (API) services, and cloud-based datasets.
Using the website requires no programming experience and allows for quick and easy search, filter and download functions for GBIF-mediated data, as well as a range of additional tools and metrics that are not available through API services.
API services allow continued access to GBIF-mediated data through other systems and can be the basis for the development of tools that allow for the interrogation of the data.
Examples include rgbif, CoordinateCleaner, and pygbif, as well as, specialized tools that allow for more specific use cases, such as GeoCat for Red List assessments.
With regards to cloud-based datasets, GBIF makes data available on the Microsoft Planetary Computer (Azure), as an Amazon AWS Open Dataset and on a public Google GCS bucket and BigQuery table. When using cloud-based snapshots, we always recommend creating a Derived Dataset citation for the records that you use. When referring to the full dataset, please use the appropriate citations as listed on the cloud-based datasets page.
What is available to me?
Through the search functions on the website, users can access data that can either be directly downloaded through GBIF or accessed from the original sources following links that GBIF provides.
| Remember that as a data user you should read and agree with the terms of the GBIF Data User Agreement that include correctly citing the use of GBIF-mediated data. |
The data available to you are:
-
Primary biodiversity data - occurrence, checklist and sampling event data that is provided to users through the one of the 3 download formats:
-
Simple: Tab delimited CSV. Only contains the data after GBIF interpretation. No multimedia included.
-
Darwin Core Archive: The Darwin Core Archive (DwC-A) contains both the original data as the publisher provided it and the GBIF interpretation. Links (but not files) to multimedia included.
-
Species list: Tab delimited CSV with the distinct list of names in the search result and as a map visualization of the data.
-
Cube: An occurrence cube is a tab-separated csv file containing species occurrence measures (e.g. a count) summarized by taxonomic, temporal and/or spatial dimensions (e.g. a given year, a specific taxonomic rank, etc.).
-
-
A range of metrics are provided for countries and regions, data publishers, datasets and data searches that provide taxonomic breakdowns, trends in data collection and highlight data quality issues. For countries, these metrics can be also be downloaded in the form of a PDF activity report.
-
Searchable database of publications that have used GBIF-mediated data.
Searches can be performed on the occurrences, species, datasets, publishers and resources, and each search function carries a set of filters that allow for more refined searching and additional data associated with the data, for example, images, can be found in tabs associated with the search.
| Occurrence download formats are fully documented in GBIF’s technical documentation. |
Gérer la qualité des données
Déterminer la précision et l’exactitude des données à utiliser est une étape clé pour déterminer l’utilité des données pour tout objectif prévu. Bien que le GBIF puisse contribuer à l’identification de certains problèmes de qualité qui surviennent dans le cadre du flux de publication des données, le traitement de certains problèmes de qualité nécessite des connaissances spécialisées supplémentaires. Les deux problèmes les plus courants pour lesquels elles peuvent être nécessaires sont les suivants :
-
Carences en données - l’échantillonnage entre les groupes taxonomiques et les régions géographiques n’est pas égal et les utilisateurs peuvent avoir besoin de prendre en compte le biais d’échantillonnage dans leurs analyses avant que les données puissent être utilisées efficacement.
-
Mauvaise identification taxonomique - certains groupes taxonomiques peuvent nécessiter des informations supplémentaires pour s’assurer que les taxons ont été correctement identifiés tels que les images, vidéos et enregistrements audio qui accompagnent les données ou les informations sur le collecteur.
Les signaux GBIF pour les problèmes de qualité des données
| Data quality issues and flags are documented in GBIF’s technical documentation. |
During the indexation process, GBIF assigns issues and flags to data for common data quality issues. These most frequently occur from data entry errors or missing data fields whose interpretation can be automated centrally by GBIF. These interpretations are classified as:
-
Exclues - lorsque les données originales n’ont pas pu être interprétées, elles sont donc exclues des champs interprétés.
-
Modifiées - lorsque les données originales sont modifiées dans le processus d’interprétation pour les indexer sur GBIF.org.
-
Inférées - lorsqu’un champ vide est déduit en utilisant d’autres informations de l’enregistrement.
| Sachez que si vous filtrez pour des problèmes de qualité des données, vous devriez inverser le filtre pour exclure les données qui ont été signalées avec ce problème. Vous pouvez également voir les données verbatim c’est-à-dire les données non interprétées dans une Archive Darwin Core si vous souhaitez valider le processus d’interprétation. |
Comment puis-je améliorer la qualité des données ?
Les fournisseurs de données ont la responsabilité d’améliorer la qualité des données, et en tant qu’utilisateur, vous jouez un rôle clé dans l’identification des erreurs. Si vous trouvez une erreur dans les données, vous devez contacter directement l’éditeur en utilisant les coordonnées fournies par GBIF sur la page de l’éditeur. Le GBIF permet également aux utilisateurs d’enregistrer les problèmes de qualité des données en utilisant le bouton "Commentaires et questions" sur la barre du menu de GBIF.org.
Guides and documentation
| GBIF supports its global community by offering comprehensive guides and documentation, enabling the mobilization, sharing, and thoughtful application of biodiversity information. |
Guides
GBIF produces digital guides on a range of topics relating to biodiversity informatics and open biodiversity data to support the community of practice.
Technical documentation
GBIF’s technical documentation offers guidance on accessing, retrieving, and citing biodiversity data, with insights into data quality, publishing best practices, and resources for tools and standards that support data sharing.
Blog de données GBIF
The GBIF data blog is a place for GBIF staff and guest bloggers to contribute:
-
Statistiques
-
Graphs
-
Tutorials
-
Ideas
-
Opinions
Révision
|
Quiz yourself on the concepts covered in this module. There may be multiple correct answers for some questions. You can read more about the answers in the Solutions Appendix. |