Use Case - Birds from literature
|
Familiarisez-vous avec le scénario du cas d’utilisation. |
Scénario
Projet de mobilisation de données de littérature « Oiseaux découverts dans les phares danois, 1883-1939 »
Ce scénario a été élaboré comme base pour les exercices pratiques du cours de mobilisation des données de biodiversité. Le concept et le contenu de l’exercice ont été développés par Alberto González-Talaván, sur la base des travaux antérieurs d’Alberto González-Talaván, Danny Vélez, Larissa Smirnova, Laura Russell, Mélianie Raymond et Nicolas Noé. Il s’agit d’un scénario fictif qui n’est destiné qu’à des fins pédagogiques.
Il s’agit d’un scénario fictif basé sur un projet et un jeu de données véritables et qui est destiné uniquement à des fins d’instruction. Le projet original et le jeu de données original sont attribués au nœud GBIF danois, DanBIF.
Description
Le Musée d’Histoire Naturelle du Danemark (NHM-DK) est un centre de recherche associé à l’Université de Copenhague. Leur bibliothèque est membre de l’association nationale des bibliothèques qui a récemment reçu des fonds de l’État pour mettre en ligne les ressources détenues par ses membres. Le NHM-DK aimerait commencer à numériser les cahiers de terrain, des publications et des livres contenus dans leur bibliothèque, dont certaines ont une valeur historique significative.
Après une courte consultation avec leurs partenaires réguliers, NHM-DK a reçu une suggestion du chef du bureau de gestion du Parc national du Nordjylland. Ils aimeraient que le contenu d’une compilation littéraire classique particulière soit numérisé pour un projet qu’ils exécutent : "Oiseaux aux phares danois, 1883-1939 (En danois, « Fuglene ved de danske Fyr, 1883-1939 »). Ils veulent utiliser toutes les données d’occurrence enregistrées dans ces livres à partir de deux phares (Lodbjerg Fyr et Hanstholm Fyr) pour un projet d’exposition sur place.
Le NHM-DK a entamé des discussions avec leur nœud national GBIF, DanBIF, au sujet de la mobilisation des informations contenues dans ces volumes, à savoir préserver leur contenu pour le futur et fournir un accès en ligne à tout le monde. Avec la participation de DanBIF, il y a l’intention de publier et d’enregistrer les données extraites avec le GBIF. Comme le GBIF nécessite une licence pour toutes les données publiées, le musée a décidé de publier les données avec une licence Creative Commons permettant l’utilisation des données avec attribution (CC-BY).
Les services informatiques requis sont fournis par l’Unité Technologique de l’Université de Copenhague, comme pour tous les projets numériques de musées.
Le directeur adjoint de HHM-DK, qui coordonne ce travail a développé un plan général pour le travail :
-
Le musée effectuera la numérisation de la littérature à l’aide de deux membres du personnel de la bibliothèque formés à l’utilisation du scanner de bibliothèque pour scanner des volumes délicats. Ils extraient également du texte des scans à l’aide d’un logiciel OCR (Optical Character Recognition).
-
Trois bénévoles de la Société Ornithologique de Copenhague (COS) qui collaborent régulièrement avec le musée et connaissent les oiseaux de la région ont été engagés pour aider et compléteront le transfert des données des PDF scannés au format tableur. Ils devront se rendre au musée et utiliser les ordinateurs disponibles dans la bibliothèque pour accéder aux fichiers stockés dans l’intranet du musée (réseau privé).
-
Le curateur Ornithologique dans le Département des Oiseaux du NHM-DK dirigera l’équipe responsable de la vérification taxonomique, de la conservation des données, du nettoyage, formatage et de la transformation. Il supervisera également l’entrée des métadonnées pour le jeu de données publié. L’équipe comprend un chercheur collaborateur originaire de Suède et deux étudiants postdoctoraux. Ils ont été sélectionnés pour cette tâche parce qu’ils sont habitués à travailler avec des données numériques sur la biodiversité. Ils utiliseront tous leurs propres ordinateurs de travail.
-
Le gestionnaire du Nœud DanBIF s’assurera que l’institution est correctement enregistrée dans GBIF en tant que fournisseur de données et que le directeur adjoint et le conservateur de la collection ornithologique disposent des références appropriées et d’un accès à l’instance IPT de DanBIF pour télécharger et publier les données.
Collection de données originale
Dans la période 1883-1939, 45 phares et bateaux-phares étaient actifs au Danemark. Ces phares ont été utilisés par plusieurs espèces d’oiseaux durant la période de migration des oiseaux entre 1886 et 1939. La présence et les activités de ces oiseaux ont été enregistrées, surtout par les gardiens de ces phares qui ont aussi recueilli des spécimens qui ont été envoyés au musée à Copenhague. Ces oiseaux ont été soigneusement préservés et catalogués par les responsables de collections du musée et les spécimens y sont encore présents aujourd’hui. Des observations sur les conditions météorologiques durant les nuits où les oiseaux ont été observés par les gardiens ont également été documentées.
Description des données analogiques
Ceci est un exemple de description d’une série d’observations d’espèces provenant d’un livre (en allemand, à l’exception du nom commun de l’espèce qui est fournie en danois).
Description des données analysées et traduites
Ceci est un exemple de la sortie numérisée et traduite à partir de l’exemple analogique ci-dessus.
Description des données numériques
En étudiant l’extrait du livre, les volontaires de la Société d’Ornithologie de Copenhague suggèrent d’extraire les données suivantes du texte numérisé et traduit :
-
Nom scientifique tel qu’il apparaît dans le livre
-
Nom(s) commun(s) en danois comme apparaissant dans le livre
-
Ville
-
Année/mois/jour
-
Nombre d’individus observés
-
Sexe
-
Etape du cycle de vie
-
Remarques
-
URL de la page numérisée du livre dont l’occurrence provient
Exercises
Download the exercise sheet. (MS Word, 2.8 MB)
Exercice 1
Saisie de données
Les scans et la reconnaissance de caractères (OCR) des livres sont terminés. Les données sur les occurrences doivent maintenant être extraites de ces sources et compilées dans un format de feuille de calcul.
Les données originales étaient en allemand et, afin de les rendre plus largement utilisables lors de leur publication en ligne, le responsable du projet souhaite les rendre disponibles en anglais.
-
Jouez le rôle d’un volontaire chargé de transformer le texte traduit en occurrences individuelles dans une feuille de calcul. Des numéros uniques devront être attribués à ces occurrences.
-
Créez une feuille de calcul en utilisant les champs de données énumérés dans la Description des données numériques en utilisant les données trouvées dans l’exemple ci-dessus et enregistrées par : Chr. Fr. Lütken.
-
Utilisez la feuille d’exercice pour fournir vos réponses et soumettez la feuille de calcul créée à l’étape précédente.
| Dans les exemples utilisés, les occurrences individuelles ne contiennent pas toujours les données pour compléter toutes les colonnes de la feuille de calcul. |
Exercice 2
Gestion des données
Les données ont maintenant été compilées dans un format de feuille de calcul par les bénévoles de la Société ornithologique de Copenhague. En tant que conservateur de la collection ornithologique au département des oiseaux, vous êtes responsable de la qualité des données du jeu de données.
Grâce au géoréférencement rétrospectif, des coordonnées ont été ajoutées au jeu de données ainsi que la localité, mais aucune autre information géographique à une échelle supérieure. Étant donné que toutes les observations ont été faites au Danemark, le continent et le pays peuvent facilement être ajoutés. De plus, seul le nom scientifique a été fourni. Une taxonomie supérieure peut être dérivée en utilisant des outils logiciels tels qu’OpenRefine. Vous savez aussi qu’il y a des erreurs typographiques qui ont été faites par les numériseurs.
-
Download UC-BL-2-ForCleaning.zip. (45 KB)
-
Identifier et corriger toutes les années non valides.
-
Vérifier et corriger la taxonomie.
-
Vérifier que les coordonnées sont correctes pour les deux localités données. Corrigez celles qui ne le sont pas. Les coordonnées doivent être au format décimal.
-
Ajouter des données pour les éléments manquants qui peuvent être dérivés en utilisant les données disponibles
-
N’oubliez pas de conserver les informations originales fournies et de documenter vos modifications et assomptions au niveau des enregistrements individuels et des métadonnées.
-
Utilisez la feuille d’exercice pour fournir vos réponses et soumettez le fichier texte nettoyé extrait de l’étape 1.
| Le jeu de données ne doit contenir que les années 1883-1939 |
Exercice 3
Publication de données
Pour cet exercice, vous assumerez le rôle de la personne responsable de la publication des données nettoyées en ligne via le réseau GBIF. Vous avez reçu un fichier multimédia et un fichier d’historique d’identification qui devrait être publié en même temps que les observations. Le membre du personnel responsable de la qualité des données vous a fourni des jeux de données nettoyés pour que vous puissiez les publier.
-
Download UC-BL-3-ForPublication.zip. (65 KB)
-
Utilisez l’installation IPT indiquée précédemment pour publier le jeu de données fourni.
-
Utilisez la feuille d’exercice pour fournir vos réponses, ainsi qu’un lien vers le jeu de données publié.