Publication de données
| Dans ce module, vous découvrirez ce qu’est la publication de données, les avantages de la publication de données, comment devenir un fournisseur de données, passerez en revue les retours d’information disponibles pour les fournisseurs et examinerez les informations relatives aux data papers. |
Qu’est-ce que la publication des données ?
| Dans cette section, vous apprendrez ce qu’est la publication de données sur le réseau GBIF. |
En termes simples, la publication de données consiste à rendre vos ensembles de données de biodiversité accessibles au public et à les rendre découvrables dans un format standardisé.
Most organizations within the GBIF Network, otherwise known as publishers, make use of an IPT, the Integrated Publishing Toolkit, to publish their data. These publishers may choose to host their own installation of an IPT like the Field Museum, but generally prefer to find a suitable host for their data publishing activities. This might be through an established GBIF Participant Node like GBIF France or through an established thematic group like VertNet. Or, a another option, might be to make use of one of the GBIF cloud-hosted IPTs.
| Si vous faites partie de groupes comme Symbiota ou les communautés Living Atlases, ils ont d’autres moyens de vous aider à publier vos données sur GBIF. |
Avantages de la publication des données de biodiversité en libre accès
| Dans cette section, vous examinerez quelques avantages de la publication des données de biodiversité. |
Une partie importante de la mission du GBIF consiste à promouvoir une culture dans laquelle les gens reconnaissent les avantages de la publication de données sur la biodiversité en libre accès, pour eux-mêmes comme pour la société en général.
-
En rendant vos données découvrables et accessibles par le biais du GBIF et d’autres infrastructures d’information similaires, vous contribuerez à la connaissance globale de la biodiversité, et donc aux solutions qui favoriseront sa conservation et son utilisation durable.
-
La publication des données permet d’intégrer des jeux de données venant du monde entier, révélant de nouvelles possibilités de collaboration entre les propriétaires de données et les chercheurs.
-
La publication des données permet aux individus et aux institutions d’être correctement crédités pour leur travail de création et de conservation des données de biodiversité, en donnant de la visibilité aux institutions qui publient grâce à une bonne rédaction des métadonnées. Cette reconnaissance peut être approfondie si vous rédigez un article sur les données évalué par des pairs, ce qui confère une reconnaissance scientifique à la publication des ensembles de données sur la biodiversité.
-
Les gestionnaires de collections peuvent suivre l’utilisation et les citations des données numérisées et publiées par leurs institutions et accessibles via GBIF et les infrastructures similaires.
-
Certains organismes de financement exigent désormais des chercheurs recevant des fonds publics qu’ils rendent leurs données librement accessibles à la fin d’un projet.
Visibilité et reconnaissance du fournisseur de données
| Dans cette section, vous passerez en revue les dispositifs pour la citation et le suivi de l’utilisation des données numériques sur GBIF.org |
Donner une visibilité et une reconnaissance adéquates aux fournisseurs de données est d’une importance capitale pour GBIF. C’est pourquoi l’organisation a mis en place les cadres réglementaires et techniques nécessaires pour rendre la citation et le suivi de l’utilisation des données numériques plus faciles que jamais.
Le Protocole d’Accord du GBIF
Le GBIF est une initiative multilatérale établie par un accord intergouvernemental et basée sur un Memorandum of Understanding (MoU) non contraignant. Le MoU est le document officiel que les pays et les organisations internationales signent afin d’adhérer au GBIF.
Le Protocole d’Accord stipule très clairement que les fournisseurs de données du GBIF doivent être reconnus pour leurs contributions:
"4. Attribution. + Le GBIF cherche à s'assurer que l'éditeur/détenteur de données soit reconnu et demande que cette attribution soit maintenue dans toute utilisation ultérieure des données."
Le GBIF s’efforce de faire de cette déclaration une réalité.
Conditions d’utilisation des données du GBIF
Avant d’accéder à des données par l’intermédiaire du GBIF, les utilisateurs doivent accepter un accord d’utilisation des données qui comprend des exigences très spécifiques sur la citation de l’origine des données obtenues via GBIF. Voici quelques-unes des exigences énumérées dans l’accord:
"Afin de rendre possible l'attribution aux propriétaires des données utilisées, l'identifiant de la propriété des données doit être conservé pour chaque enregistrement partagé pour être réutilisé."
"Les utilisateurs doivent mentionner publiquement, en suivant la convention scientifique de citation des sources en association avec l’utilisation des données, les éditeurs de données dont ils ont utilisé les données de biodiversité, si possible par l’utilisation d’un Identifiant d’Objet Digital (DOI) s’appliquant au(x) jeu(x) de données et/ou au(x) téléchargement(s) de donnée(s)."
De la même manière, l’accord est très spécifique en indiquant que les conditions énoncées dans les licences choisies par les données publiées doivent être respectées.
"Les utilisateurs doivent se conformer aux termes et conditions inclus dans la licence sélectionnée par chaque éditeur de données, ainsi qu'aux informations relatives aux licences incluses dans chaque téléchargement de données. Si une quelconque disposition du présent Accord d'Utilisation entre en conflit avec les termes et conditions inclus dans les licences sélectionnées par l'éditeur de données, les licences sélectionnées par l'éditeur de données prévaudront."
Citation
Le GBIF encourage vivement tous les utilisateurs à citer les données extraites du réseau du GBIF. À cette fin, il fournit des citations recommandées sur les pages des jeux de données, des occurrences et des téléchargements de GBIF.org.
Ceci est particulièrement pertinent pour les jeux de données publiés en utilisant les licences « CC-BY » et « CC-BY-NC », qui incluent des exigences spécifiques pour indiquer l’origine des données.
Les phrases de citation et de droits sont automatiquement générées pour les fournisseurs de données dans chaque jeu de données publié en utilisant l’IPT, à condition que l’une des licences possibles soit sélectionnée.
Les éditeurs de données doivent soigneusement choisir quelle licence correspond le mieux à toutes les exigences existantes de leurs institutions et de toute politique d’accès aux données auxquelles ils peuvent être soumis.
Page du fournisseur de données
Tous les fournisseurs de données disposent de leur propre page sur GBIF.org. Il est important que ces éditeurs réfléchissent à la façon dont ils souhaitent apparaître sur le site Web et fournissent des informations pertinentes sur leurs institutions et leurs équipes au moment de leur inscription. Ils devraient également s’efforcer de la tenir à jour, les personnes intéressées utiliseront les données de contact de cette page pour contacter l’équipe responsable de la publication des données.
DOI du jeu de données
Chaque fois qu’une nouvelle version d’un jeu de données est publiée à l’aide d’un IPT, un DOI (Identificateur d’Objet Digital) est attribué. Comme dans le cas des téléchargements, cet identifiant permet une citation et un suivi faciles du travail dérivé du jeu de données, si l’utilisateur suit les bonnes pratiques pour l’accréditation de la source.
As mentioned before, you can resolve DOIs into websites like doi.org/10.xxx which will always redirect to the original source, in this case, the dataset page. You can also search for DOI using a normal web search, which will normally reveal any other resource citing use of the same DOI such as articles or public reports.
Comment devenir un fournisseur de données
| Dans cette section, vous allez passer en revue les étapes pour devenir un fournisseur de données. |
Les organisations qui souhaitent partager des données via GBIF peuvent s’inscrire ici pour demander leur endossement en tant que fournisseur de données.
Les nouveaux éditeurs de données potentiels sont invités à remplir un formulaire en ligne. Les réponses fournies aident le GBIF à donner une accréditation appropriée pour les jeux de données partagés par le nouvel éditeur.
Avant que le GBIF n’indexe des jeux de données, une institution doit être approuvée en tant qu’éditeur de données par l’un des nœuds de participants qui coordonnent les activités des participants nationaux et organisationnels du réseau GBIF. Si le pays ne participe pas encore au GBIF, le parrainage est demandé au nom de l’éditeur au sein de la communauté GBIF.
La procédure d’endossement vise à garantir que :
-
Les données publiées sont pertinentes pour la portée et les objectifs du GBIF
-
Les arrangements d’hébergement de données sont stables et persistants
-
La publication et l’utilisation des données sont soutenues par un engagement fort, national, régional et thématique
-
Les données sont aussi ouvertes que possible et disponibles pour le partage et la réutilisation
-
Les éditeurs de données peuvent répondre aux commentaires et améliorer la qualité des données
| Actuellement, le GBIF et ses participants ne publient que des données provenant d’organisations - c’est-à-dire d’institutions, de réseaux et de sociétés - et non de particuliers. Les personnes qui souhaitent publier des données doivent passer par leurs organisations affiliées pour obtenir l’approbation en tant que fournisseur. |
Les réponses fournies aideront également les utilisateurs à mieux comprendre la provenance des données partagées à travers le réseau GBIF.
Assurez-vous de rechercher dans les éditeurs existants avant d’en enregistrer un nouveau pour vous assurer que l’éditeur n’est pas déjà enregistré.
Exigences de qualité des données GBIF
| Dans cette section, vous examinerez les exigences de qualité des données GBIF. |
Les éditeurs jouent un rôle essentiel non seulement dans le partage des jeux de données mais aussi dans la gestion de leur qualité, leur complétude et utilité, et assurent leur intégration et leur valeur dans la base de connaissances globale du GBIF.
Pour partager des données via GBIF.org, les fournisseurs de données doivent généralement rassembler ou transformer des jeux de données existants dans un format standardisé. Ce travail peut inclure un traitement supplémentaire, des éditions sur contenu et la conversion du contenu d’un jeu de données vers l’un des formats de transfert de données disponibles, ainsi que la publication à l’aide d’un des outils de publication de données disponibles, tels que le Kit de publication intégré (IPT) du GBIF, qui est gratuit et open-source .
Une fois publiés, l’infrastructure en temps réel du GBIF "indexe" ou "récolte" les nouveaux ensembles de données, les intégrant dans un système d’accès commun où les utilisateurs peuvent récupérer toutes les données grâce à des services communs de recherche et de téléchargement. Au fur et à mesure que les ensembles de données sont indexés, GBIF.org effectue des contrôles supplémentaires, des routines d’interprétation et de conversion pour s’assurer que les données sont interopérables et conformes aux standards minimaux de formats de données, de qualité des données et d’aptitude à l’emploi. Cependant, de nombreux critères de qualité et d’utilisation des données sont plus faciles à gérer lorsqu’ils sont traités à la source: le de données individuel.
Les fournisseurs de données jouent donc un rôle essentiel non seulement dans le partage des jeux de données, mais aussi dans la gestion de leur qualité, de leur complétude et de leur utilité ainsi que pour garantir leur intégration et leur valeur dans la base de connaissances globale du GBIF. Apprenez-en plus sur les exigences de qualité des données et sur les recommandations pour:
En pratique, nous encourageons les responsables de la publication des données à se familiariser avec les formats de données attendus et les exigences en matière de contenu le plus tôt possible dans le processus (voir également les templates Excel GBIF préconfigurés avec les termes requis et recommandés pour les jeux de données d’occurrences, les listes d’espèces, et les événements d’échantillonnage, tous disponibles avec des exemples de données). Vous économiserez ainsi beaucoup d’efforts qui pourraient être nécessaires à des étapes ultérieures, par exemple pour ajouter des conversions de données, saisir des informations pour les champs obligatoires ou fortement recommandés, ou effectuer les contrôles finaux de qualité des données avant la publication.
| Data quality requirements are fully documented in GBIF’s technical documentation. |
| Datasets published by BID projects may have different or additional data quality requirements. |
Améliorer la qualité des données publiées
| Dans cette section, vous apprendrez comment utiliser le validateur de données GBIF. |
Le validateur de données du GBIF est un service qui permet à toute personne ayant un jeu de données GBIF de recevoir un rapport sur la justesse syntaxique et la validité du contenu de le jeu de données. En soumettant un jeu de données au validateur, vous pouvez passer par les procédures de validation et d’interprétation généralement associées à la publication sur GBIF et déterminer rapidement les éventuels problèmes dans les données - sans avoir à les publier.
Comment ça fonctionne ?
Vous commencez en important le fichier de données dans le validateur, soit 1) en cliquant sur SÉLECTIONNER UN FICHIER et en le sélectionnant sur votre ordinateur, soit 2) en faisant glisser le fichier depuis un dossier local et en le déposant sur l’icône DÉPOSER ICI. Vous pouvez également saisir l’URL d’un fichier de données accessible depuis internet. Cette option est particulièrement utile pour les grands ensembles de données. Une fois que vous avez cliqué sur le bouton SOUMETTRE, le validateur commence à traiter votre fichier de données. Vous serez directement dirigé vers une page indiquant se statut de la validation.
Selon la taille de votre ensemble de données, le traitement peut prendre un certain temps. Il n’est pas nécessaire de garder la fenêtre du navigateur ouverte, car un ID de travail unique est émis chaque fois qu’un nouveau processus de validation est lancé. Si le traitement de votre ensemble de données prend trop de temps, il vous suffit d’enregistrer l’ID (sauvegarde de l’URL) et de l’utiliser pour revenir ultérieurement consulter le rapport. Nous conservons le rapport pendant un mois, au cours duquel vous pouvez revenir quand vous le souhaitez.
Quels types de fichiers sont acceptés ?
-
Archives Darwin Core (DwC-A) compressées en ZIP (contenant des cœurs d’occurrences, de taxons ou d’événements)
-
Modèles Excel du Kit de publication intégré (IPT) contenant les données de liste d’espèces, d’occurrences ou d’événements d’échantillonnage
-
Des fichiers CSV simples contenant les termes Darwin Core dans la première ligne
Quelles informations sont fournies à partir du rapport de validation ?
Une fois le traitement effectué, vous pourrez voir le rapport de validation contenant les informations suivantes :
-
un résumé du type de jeu de données et un indicateur simple pour savoir s’il peut être indexé par le GBIF ou non
-
un résumé des problèmes rencontrés lors de l’interprétation du jeu de données par GBIF
-
une description détaillée des problèmes trouvés dans les métadonnées, le cœur du jeux de données et dans les extensions (s’il y en a), respectivement
-
le nombre d’enregistrements interprétés avec succès
-
la fréquence des termes utilisés dans le jeu de données
Vous pourrez également consulter les métadonnées en tant que version préliminaire de la page du jeu de données telle qu’elle apparaîtra lorsque le jeu de données sera publié et enregistré auprès du GBIF.
J’ai le rapport de validation - et après ?
If the validator finds that your dataset cannot be indexed by GBIF, you should address the issues raised by the validation report before you consider publishing it to GBIF. Even if your dataset is indexable by GBIF, you should still carefully review any issues that may be the result of e.g. conversion errors, etc. which could affect the quality of the data. If you find and correct any error - from a single typo to large systematic problems - feel free to resubmit your dataset as many times you like.
| Data quality issues and flags are documented in GBIF’s technical documentation. |
Révision
|
Quiz yourself on the concepts covered in this module. There may be multiple correct answers for some questions. You can read more about the answers in the Solutions Appendix. |