Solutions

Cette annexe contient les réponses et des informations complémentaires à tous les quiz de révision.

Additionally, this section contains a suggested solution to the practice USE CASE.

Solutions de vérification de la saisie des données

Quel(s) type(s) de jeu de données choisiriez-vous pour une collection d’ichtyologie ?

  • occurrence
    La plupart du temps, les spécimens issus de bases de données de collections sont partagés sous forme de données d’occurrence. Chaque occurrence (spécimen ou lot de spécimens) possède son propre identifiant unique (parfois dérivé de son numéro de catalogue dans la collection source), et les champs Darwin Core utilisés pour les partager via GBIF décrivent chaque spécimen : nom scientifique, date de collecte sur le terrain, personne qui l’a collecté et/ou identifié, lieu de collecte, etc. Une même collection peut contenir plusieurs spécimens d’une même espèce, tant que chaque spécimen est associé à un identifiant unique.

  • checklist
    Il est également possible de créer et de partager une checklist taxonomique dérivée d’une base de données de collection ; dans ce cas, il est recommandé de partager la checklist sous forme de jeu de données taxonomique, en lui associant la liste d’occurrences (spécimens) en utilisant le noyau Occurrence (Occurrence core) comme extension au noyau Taxon (Taxon Core) dans l’IPT de GBIF.

Quel(s) type(s) de jeu de données choisiriez-vous pour une liste d’espèces envahissantes ?

  • occurence
    Certaines entités publient des jeux de données d’occurrences issus d’études ou de programmes qui suivent des spécimens liés à certaines espèces exotiques envahissantes ; lorsque les données portent sur des individus plutôt que sur l’espèce envahissante en tant que telle, elles peuvent, en règle générale, être partagées comme des données d’occurrence.

  • checklist
    Les espèces exotiques envahissantes peuvent être suivies et surveillées à différentes échelles (régionale, nationale, thématique, etc.). Comme ce type de jeu de données se concentre davantage sur les espèces et leur répartition à l’échelle d’un périmètre géographique donné, il est le plus souvent partagé dans GBIF sous forme de jeu de données taxonomique (voir les résultats de recherche GRIIS sur GBIF (https://www.gbif.org/dataset/search?project_id=GRIIS).

Quel(s) type(s) de jeu de données choisiriez-vous pour la flore et la faune d’une étude d’impact environnementale ?

  • occurrence
    Les données sont enregistrées sur le terrain par des naturalistes et peuvent être partagées sous forme de simples jeux de données d’occurrence.

  • évènement d’échantillonnage
    Elles peuvent aussi être partagées sous forme de jeux de données de type “événement d’échantillonnage” (sampling event) si des protocoles standardisés (par ex. placettes de végétation, transects, pièges, etc.) sont utilisés pour collecter les données.

Quel(s) type(s) de jeu de données choisiriez-vous pour des données de suivi des oiseaux ?

  • occurence
    Ces données sont partagées sous forme de jeux de données d’occurrences : idéalement, chaque oiseau est identifié par un organismID, et chaque occurrence (point GPS) possède son propre occurrenceID, ce qui est utile pour suivre les différentes localisations GPS d’un même oiseau sur toute la durée et/ou l’étendue du programme ou du projet de suivi. Exemple GBIF: https://www.gbif.org/dataset/2fc1d8b5-9c99-4e03-8c3c-11a6e51a298f

Quel(s) type(s) de jeu de données choisiriez-vous pour des données de pièges à insectes?

  • occurence
    Bien que ces données puissent être partagées sous forme de simples jeux de données d’occurrences, il est préférable de les partager sous forme de jeux de données d’événements (sampling event), car cela permet de mieux détailler la localisation, l’identifiant et le contenu de chaque piège.

  • événements d’échantillonnage (sampling event)
    Les pièges entomologiques (ainsi que d’autres types de pièges, comme les pièges Barber/pitfall, les pièges Malaise, etc.) sont généralement utilisés dans des programmes de suivi pour vérifier la présence (ou l’absence) de certaines espèces et/ou estimer leur abondance. L’utilisation du champ eventID pour identifier chaque piège permet aux utilisateur·ice·s de retrouver tous les spécimens collectés dans ce piège. La même logique s’applique à d’autres protocoles de terrain, tels que les transects, les placettes, les caméras automatiques, etc. : en utilisant le noyau Événement (Event Core) plutôt que le noyau Occurrence (Occurrence core), vous pourrez partager beaucoup plus d’informations sur le contexte de la collecte des données, et permettre aux utilisateur·ice·s de mieux comprendre (et même de reproduire) votre travail.

Quel(s) type(s) de jeu de données choisiriez-vous pour des données de gestion d’un parc national ?

  • occurrence
    recenser des individus identifiés au niveau de l’espèce

  • checklist
    Il est important de connaître combien d’espèces sont présentes dans le périmètre du parc/de la réserve, ainsi que leur statut de conservation.

  • événement d’échantillonnage
    surveiller et suivre les populations

Quel(s) type(s) de jeu de données choisiriez-vous pour un inventaire éclair (bioblitz) dans le cadre d’un programme de science participative ?

  • occurence
    Les jeux de données issus de Bioblitz sont principalement partagés sous forme de jeux de données d’occurrences.

  • événement d’échantillonnage
    Selon le programme de science participative, des protocoles d’échantillonnage spécifiques peuvent être utilisés par les bénévoles ; dans ce cas, les données peuvent être partagées sous forme de jeu de données d’événements (événements d’échantillonnage).

Quel(s) type(s) de jeu de données choisiriez-vous pour une liste d’espèces régionale ?

  • checklist
    Les listes d’espèces géographiques ou thématiques sont souvent utilisées pour partager des informations sur les espèces présentes dans une zone donnée ; la plupart du temps, ces listes indiquent aussi la répartition de chaque espèce ainsi que son statut de conservation dans cette zone. Les listes régionales d’espèces peuvent offrir un aperçu utile de la biodiversité et des habitats d’une région, et doivent être partagées sous forme de jeux de données taxonomiques, avec ou sans occurrences associées.

Solutions des révisions sur la gestion des données

Pourquoi est-il préférable de nettoyer vos données ?

  • pour les rendre aussi utilisables que possible

  • pour atteindre vos objectifs de qualité des données

Vous devriez toujours vous efforcer de gérer et de publier des données de la meilleure qualité possible. Cela améliorera votre travail quotidien (il est plus facile de travailler avec des données organisées et bien nettoyées), ainsi que le travail des réutilisateurs potentiels de vos données, qui ont besoin de les comprendre et de faire confiance à leur source avant de les utiliser.

Comment devriez-vous organiser votre processus de nettoyage des données ?

  • sollicitez vos collègues pour obtenir l’expertise qui vous manque

  • travaillez au niveau institutionnel pour harmoniser les processus concernant la qualité des données

Personne n’est censé tout savoir sur les données sur la biodiversité ; vous pouvez demander de l’aide et des conseils à vos collègues ou à d’autres personnes expertes dans leur domaine, et vous assurez que vous appliquez les bonnes pratiques recommandées par votre institution lorsque vous nettoyez vos données.

Qu’est-ce qui est le mieux :

  • empêcher les erreurs de se produire

  • corriger les erreurs dès que vous les trouvez dans votre base de données ou dans votre feuille de calcul

La meilleure façon d’éviter de propager des erreurs dans vos données est de les empêcher de se produire au début du processus de collecte/enregistrement des données.

Bien sûr, les erreurs sont inévitables. Vous devriez donc les nettoyer dès que vous les trouvez et documenter le processus de nettoyage.

Si vous n’avez pas le temps ou les ressources pour nettoyer correctement vos données, Il est préférable d’attendre de pouvoir le faire au lieu de publier des données erronées, qui pourraient perturber le travail des personnes souhaitant les réutiliser.

Qui est responsable de la qualité des données ?

  • Toutes les personnes impliquées dans la gestion des données

Chaque personne impliquée dans votre processus de gestion des données est au moins en partie responsable de leur qualité, des techniciens de terrain au(x) gestionnaire(s) de la base de données.

Les personnes qui pourraient ultérieurement utiliser vos données peuvent vous informer de toute erreur restante dans vos données, et devraient les utiliser de manière appropriée pour leurs propres recherches, mais la qualité initiale des données n’est pas leur responsabilité.

Le GBIF peut effectuer des vérifications automatiques sur vos données (par ex. la détection des valeurs manquantes, des aberrations géographiques, des noms scientifiques inconnus) mais ne peut pas être tenu responsable des erreurs qui se sont produites plus tôt dans le processus de gestion des données.

Quels outils peuvent être utilisés pour nettoyer vos données ?

  • Excel et autres outils de gestion des feuilles de calcul

  • OpenRefine

  • Votre logiciel de base de données

  • Des outils en ligne tels que le Scientific Names Resolver ou Google Maps

Tous types d’outils peuvent être utilisés pour nettoyer vos données, mais vous devez identifier ceux qui répondront à vos besoins en termes de réconciliation taxonomique, de géo-référencement, de suppression des doublons, etc. Vous pouvez trouver la liste des outils utiles dans la section dédiée à la gestion des données.

Solutions des révisions sur la publication des données

Que signifie la publication de données dans le contexte du GBIF ?

  • Rendre votre ou vos jeu(x) de données sur la biodiversité accessible(s) au public et découvrables(s) dans un format standardisé

La publication de données dans le GBIF signifie rendre votre ou vos jeu(x) de données sur la biodiversité accessible(s) publiquement dans un format standardisé (la plupart du temps, le Darwin Core), afin qu’il(s) puisse(nt) être découvert(s) et réutilisé(s) par d’autres personnes.

Qu’est-ce qu’un IPT ?

  • un outil qui vous aide à publier vos données sur le GBIF

  • un outil qui vous aide à produire un data paper (article de données)

L’IPT (Integrated Publishing Toolkit) est un logiciel codé en Java qui vous permet de charger et de publier des données sur le GBIF. Il ne doit pas être utilisé comme outil de gestion des données ou de nettoyage des données.

L’IPT peut également vous aider dans le processus d’écriture et de soumission d’un data paper (article de données), grâce au fichier EML qu’il génère automatiquement lorsque vous remplissez les métadonnées de votre ressource de données.

Quelles licences ou dérogations Creative Commons sont recommandées par le GBIF pour la publication de données ?

  • CC0, CC-BY et CC-BY-NC

Les licences et dérogations Creative Commons recommandées pour publier vos jeux de données sur le GBIF sont CC0, CC-BY et CC-BY-NC. Ce sont des licences et/ou des dérogations largement reconnues qui s’alignent sur les exigences internationales de l’open-data en matière de partage et de réutilisation des données.

Veuillez noter que vous ne devez choisir que la dérogation/licence CC0 ou CC-BY pour votre (vos) jeu(x) de données publié(s) dans le cadre du programme BID.

Quels sont les trois noyaux ("Cores") que vous pouvez choisir pour une ressource sur l’IPT ?

  • Occurrence Core, Taxon Core, Event Core

Vous pouvez choisir l’un des trois noyaux ("Cores") suivants pour chacune de vos ressources IPT : Occurrence, Taxon ou Event.

Le standard Darwin Core vous permet également de lier des extensions au noyau de votre choix, comme SimpleMultimedia ou MeasurementOrFact.

Les métadonnées sont remplies dans une section séparée de l’IPT et sont partagées en utilisant le standard EML, pas le Darwin Core (qui n’est utilisé que pour les données).

Combien de fichiers d’extensions un jeu de données peut-il avoir ?

  • autant que nécessaire

Une fois que vous avez choisi un noyau pour votre ressource IPT, vous pouvez y ajouter des extensions Darwin Core. Vous pouvez n’ajouter qu’une ou plusieurs extensions, selon le type de Core que vous avez choisi, et les extensions qui sont compatibles avec celui-ci.

Les extensions ne sont pas obligatoires (vous pouvez publier un jeu de données sans aucune extension) mais peuvent être utiles si vous voulez partager des informations supplémentaires que vous ne pouvez pas associer avec le noyau de votre choix.

Practice Use Case suggested solution

suggested solution (PDF 144 KB)