Solutions

This appendix contains the answers and additional information for the review quizzes.

Additionally, this section contains a suggested solution to the Practice Use Case.

Solutions des révisions sur la gestion des données

Pourquoi est-il préférable de nettoyer vos données ?

pour les rendre aussi utilisables que possible
pour atteindre vos objectifs de qualité des données

Vous devriez toujours vous efforcer de gérer et de publier des données de la meilleure qualité possible. Cela améliorera votre travail quotidien (il est plus facile de travailler avec des données organisées et bien nettoyées), ainsi que le travail des réutilisateurs potentiels de vos données, qui ont besoin de les comprendre et de faire confiance à leur source avant de les utiliser.

Comment devriez-vous organiser votre processus de nettoyage des données ?

sollicitez vos collègues pour obtenir l’expertise qui vous manque
travaillez au niveau institutionnel pour harmoniser les processus concernant la qualité des données

Personne n’est censé tout savoir sur les données sur la biodiversité ; vous pouvez demander de l’aide et des conseils à vos collègues ou à d’autres personnes expertes dans leur domaine, et vous assurez que vous appliquez les bonnes pratiques recommandées par votre institution lorsque vous nettoyez vos données.

Qu’est-ce qui est le mieux :

empêcher les erreurs de se produire
corriger les erreurs dès que vous les trouvez dans votre base de données ou dans votre feuille de calcul

La meilleure façon d’éviter de propager des erreurs dans vos données est de les empêcher de se produire au début du processus de collecte/enregistrement des données.

Bien sûr, les erreurs sont inévitables. Vous devriez donc les nettoyer dès que vous les trouvez et documenter le processus de nettoyage.

Si vous n’avez pas le temps ou les ressources pour nettoyer correctement vos données, Il est préférable d’attendre de pouvoir le faire au lieu de publier des données erronées, qui pourraient perturber le travail des personnes souhaitant les réutiliser.

Qui est responsable de la qualité des données ?

Toutes les personnes impliquées dans la gestion des données

Chaque personne impliquée dans votre processus de gestion des données est au moins en partie responsable de leur qualité, des techniciens de terrain au(x) gestionnaire(s) de la base de données.

Les personnes qui pourraient ultérieurement utiliser vos données peuvent vous informer de toute erreur restante dans vos données, et devraient les utiliser de manière appropriée pour leurs propres recherches, mais la qualité initiale des données n’est pas leur responsabilité.

Le GBIF peut effectuer des vérifications automatiques sur vos données (par ex. la détection des valeurs manquantes, des aberrations géographiques, des noms scientifiques inconnus) mais ne peut pas être tenu responsable des erreurs qui se sont produites plus tôt dans le processus de gestion des données.

Quels outils peuvent être utilisés pour nettoyer vos données ?

Excel et autres outils de gestion des feuilles de calcul
OpenRefine
Votre logiciel de base de données
Des outils en ligne tels que le Scientific Names Resolver ou Google Maps

Tous types d’outils peuvent être utilisés pour nettoyer vos données, mais vous devez identifier ceux qui répondront à vos besoins en termes de réconciliation taxonomique, de géo-référencement, de suppression des doublons, etc. Vous pouvez trouver la liste des outils utiles dans la section dédiée à la gestion des données.

Solutions des révisions sur la publication des données

Que signifie la publication de données dans le contexte du GBIF ?

Rendre votre ou vos jeu(x) de données sur la biodiversité accessible(s) au public et découvrables(s) dans un format standardisé

La publication de données dans le GBIF signifie rendre votre ou vos jeu(x) de données sur la biodiversité accessible(s) publiquement dans un format standardisé (la plupart du temps, le Darwin Core), afin qu’il(s) puisse(nt) être découvert(s) et réutilisé(s) par d’autres personnes.

Qu’est-ce qu’un IPT ?

un outil qui vous aide à publier vos données sur le GBIF
un outil qui vous aide à produire un data paper (article de données)

L’IPT (Integrated Publishing Toolkit) est un logiciel codé en Java qui vous permet de charger et de publier des données sur le GBIF. Il ne doit pas être utilisé comme outil de gestion des données ou de nettoyage des données.

L’IPT peut également vous aider dans le processus d’écriture et de soumission d’un data paper (article de données), grâce au fichier EML qu’il génère automatiquement lorsque vous remplissez les métadonnées de votre ressource de données.

Quelles licences ou dérogations Creative Commons sont recommandées par le GBIF pour la publication de données ?

CC0, CC-BY et CC-BY-NC

Les licences et dérogations Creative Commons recommandées pour publier vos jeux de données sur le GBIF sont CC0, CC-BY et CC-BY-NC. Ce sont des licences et/ou des dérogations largement reconnues qui s’alignent sur les exigences internationales de l’open-data en matière de partage et de réutilisation des données.

Veuillez noter que vous ne devez choisir que la dérogation/licence CC0 ou CC-BY pour votre (vos) jeu(x) de données publié(s) dans le cadre du programme BID.

Quels sont les trois noyaux ("Cores") que vous pouvez choisir pour une ressource sur l’IPT ?

Occurrence Core, Taxon Core, Event Core

Vous pouvez choisir l’un des trois noyaux ("Cores") suivants pour chacune de vos ressources IPT : Occurrence, Taxon ou Event.

Le standard Darwin Core vous permet également de lier des extensions au noyau de votre choix, comme SimpleMultimedia ou MeasurementOrFact.

Les métadonnées sont remplies dans une section séparée de l’IPT et sont partagées en utilisant le standard EML, pas le Darwin Core (qui n’est utilisé que pour les données).

Combien de fichiers d’extensions un jeu de données peut-il avoir ?

autant que nécessaire

Une fois que vous avez choisi un noyau pour votre ressource IPT, vous pouvez y ajouter des extensions Darwin Core. Vous pouvez n’ajouter qu’une ou plusieurs extensions, selon le type de Core que vous avez choisi, et les extensions qui sont compatibles avec celui-ci.

Les extensions ne sont pas obligatoires (vous pouvez publier un jeu de données sans aucune extension) mais peuvent être utiles si vous voulez partager des informations supplémentaires que vous ne pouvez pas associer avec le noyau de votre choix.

Solutions

Solutions des révisions sur la gestion des données

Solutions des révisions sur la publication des données

Solution proposée pour le cas d’utilisation pratique