Caso de Uso - Aves de la literatura

Familiarícese con el escenario del caso de uso.

Escenario

Proyecto de movilización de datos de la literatura "Aves caídas en los faros daneses, 1883–1939"

use case BL scanner
Escáner de alta resolución para el proyecto de digitalización de libros de Heiko Hornig (licenciado bajo CC BY-SA 2.5)

Esta narrativa fue desarrollada como base para ejercicios prácticos del curso de movilización de datos de biodiversidad y el concepto y contenido del ejercicio fue desarrollado por Alberto González-Talaván, Andrea Hahn, Laura Russell y Sharon Grant. Se basa en una adaptación previa de Alberto González-Talaván, Danny Vélez, Larissa Smirnova, Laura Russell, Mélianie Raymond y Nicolas Noé.

Es un escenario ficticio basado en un proyecto y en un conjunto de datos reales y está destinado a fines educativos únicamente. Se atribuyen el proyecto original y el conjunto de datos original al nodo GBIF danés, DanBIF.

Descripción

El Museo de Historia Natural de Dinamarca (NHM-DK) es un centro de investigación asociado con la Universidad de Copenhague. Su biblioteca es miembro de la asociación nacional de bibliotecas que recientemente recibió fondos estatales para poner en línea los recursos que poseen sus miembros. El NHM-DK desea comenzar a digitalizar los cuadernos de campo, las publicaciones de revistas y los libros que se encuentran en su biblioteca, algunos de los cuales tienen un valor histórico significativo.

Después de una breve consulta con sus socios habituales, NHM-DK recibió una sugerencia del director de la oficina de gestión del Parque Nacional Nordjylland. Les gustaría que se digitalizara el contenido de una recopilación de literatura clásica particular para un proyecto que están ejecutando: "Aves en los faros daneses, 1883-1939" (en danés, "Fuglene ved de danske Fyr, 1883-1939"). Quieren utilizar cualquier dato de registros biológicos consignado en los libros de dos faros (Lodbjerg Fyr y Hanstholm Fyr) para un proyecto de exhibición en el lugar.

El NHM-DK ha iniciado conversaciones con el nodo nacional de GBIF, DanBIF, sobre la movilización de la información contenida en estos volúmenes, es decir, para preservar sus contenidos para el futuro y proporcionar acceso en línea para todos. Con la participación de DanBIF, existe la intención de publicar y registrar los datos extraídos resultantes en GBIF. Como GBIF requiere que se aplique una licencia con todos los datos publicados, el museo ha decidido publicar los datos con una licencia Creative Commons que permite el uso de datos con atribución (CC-BY).

Los servicios informáticos necesarios son proporcionados por la Unidad de Tecnología de la Universidad de Copenhagen, como para todos los proyectos digitales de los museos.

El subdirector del HHM-DK, que está coordinando este trabajo, ha elaborado un esquema general del mismo:

  1. El museo llevará a cabo la digitalización de la literatura mediante dos miembros del personal de la biblioteca, capacitados en el uso del escáner de la biblioteca, para escanear volúmenes delicados. También extraerán el texto de los escaneos mediante un software de reconocimiento óptico de caracteres (OCR).

  2. Tres voluntarios de la Sociedad Ornitológica de Copenhague (COS), que colaboran regularmente con el museo y están familiarizados con las aves de la región, han sido reclutados para ayudar y completarán la transferencia de datos de los PDF escaneados al formato de hoja de cálculo. Deberán ir al museo y utilizar las computadoras disponibles en la biblioteca para acceder a los archivos almacenados en la intranet del museo (red privada).

  3. El curador de ornitología del Departamento de Aves del NHM-DK dirigirá el equipo responsable de la verificación taxonómica, la curación, la limpieza, el formato y la transformación de los datos, y supervisará la introducción de metadatos para el conjunto de datos publicado. El equipo incluye un investigador colaborador de Suecia y dos estudiantes posdoctorales. Han sido seleccionados para esta tarea porque están acostumbrados a trabajar con datos sobre biodiversidad. Todos ellos utilizarán sus propios computadores de trabajo.

  4. El administrador de nodo de DanBIF se asegurará de que la institución esté debidamente registrada en GBIF como publicador de datos, y de que el director adjunto y el curador de ornitología tengan las credenciales adecuadas y el acceso a la instancia de IPT de DanBIF para cargar y publicar los datos.

Recopilación de datos originales

En el período 1883-1939, había 45 faros y buques faro en funcionamiento en Dinamarca. Estos faros fueron utilizados por varias especies de aves durante las noches del período de migración de aves desde los años 1886 hasta 1939. La presencia y las actividades de estas aves fueron registradas, especialmente por los guardianes de estos faros que también colectaban especímenes que se enviaban al museo de Copenhagen. Estas aves fueron cuidadosamente conservadas y catalogadas por los encargados de la colección en el museo y los especímenes aún se pueden encontrar allí hoy en día. También se documentaron las observaciones de las condiciones meteorológicas durante las noches en las que los cuidadores observaron las aves.

Descripción de datos análogos

Este es un ejemplo de la descripción de una serie de observaciones de especies de uno de los libros (en alemán, excepto el nombre común de la especie que se proporciona en danés).

use case BL analogue

Descripción de datos escaneados y traducidos

Este es un ejemplo de la salida escaneada y traducida del ejemplo análogo anterior.

use case BL scanned

Descripción de datos digitales

Al estudiar el extracto del libro, los voluntarios de la Sociedad de Ornitología de Copenhague sugieren extraer los siguientes datos del texto escaneado y traducido:

  • Nombre científico que aparece en el libro

  • Nombre(s) común(es) en danés que aparece(n) en el libro

  • Localidad

  • Año/mes/día

  • Número observado de individuos

  • Sexo

  • Etapa de la vida

  • Observaciones

  • URL de la página del libro digitalizado en la que se proporciona el registro biológico

Ejercicios

Descargue el archivo adjunto ejercicio. (MS Word, 2,8 MB)

Ejercicio 1

Captura de datos

Se han completado los escaneos y el reconocimiento de caracteres (OCR) de los libros. Los datos de registros biológicos ahora deben extraerse de esas fuentes y compilarse en un formato de hoja de cálculo.

Los datos originales estaban en alemán y, para facilitar su uso cuando se publiquen en línea, el director del proyecto desea que estén disponibles en inglés.

2. Cerchneis tinnunculus, Linn. ("Taarnfalk") anida en varios campanarios de los alrededores de Viborg.

En las iglesias de Mönsted y Daubjerg había en 1880 varios grupos familiares, cada uno de 7 individuos, lo que sugiere una fuente de alimento especialmente abundante en los brezos de los alrededores (lagartijas). En la zona de Thisted, donde el halcón de torre empolla muy a menudo, los jóvenes estaban siempre presentes en nidadas de 6, sólo una vez encontré un grupo de 7 en Egebäksande (H.)

En Horsens encontré cernícalos empollando en las iglesias de Vähr, Hansted, Hundslund, Thyrsted y Oelsted. En el campanario de Vähr encontré un nido con 6 huevos el 6 de mayo de 1875, 6 huevos el 30 de abril de 1876, 4 huevos el 28 de abril de 1878; en 1877 y 1879 no había ninguno, el 2 de mayo de 1880 tenían 5 huevos, en 1882 también 5 huevos, y en 1883 siete.

En Oelsted 5 huevos el 3 de mayo de 1879, en 1882 también 5, y en 1883 6 huevos.

En las iglesias (de Nuestra Señora y de San Pedro) de Copenhague, lo he visto a menudo en el otoño y el invierno de 1879; en la primavera de 1880, se posó sobre la iglesia de Nuestra Señora, la "torre redonda" y el edificio del bufete de abogados (en una válvula) y, sin duda, también sobre la iglesia de San Pedro. (F.)

  1. Asuma el rol de un voluntario encargado de transformar el texto traducido en una hoja de cálculo como registros biológicos individuales. Los registros biológicos necesitarán que se les asignen números únicos.

  2. Cree una hoja de cálculo utilizando los campos de datos enumerados en la Descripción de datos digitales utilizando los datos encontrados en el ejemplo anterior registrados por: Chr. P. Lütken.

  3. Use la hoja de ejercicios para proporcionar sus respuestas y envíe la hoja de cálculo creada en el paso previo.

En los ejemplos utilizados, los registros biológicos individuales no siempre contienen datos para completar todas las columnas de la hoja de cálculo.

Ejercicio 2

Gestión de datos

Los voluntarios de la Sociedad Ornitológica de Copenhague han recopilado los datos en un formato de hoja de cálculo. Al asumir el rol de curador de ornitología en el departamento de aves, se le ha asignado la responsabilidad de los problemas relativos a la calidad de los datos.

A través de la georreferenciación retrospectiva, se han agregado coordenadas al conjunto de datos junto con la localidad, pero no otra geografía superior. Dado que todas las observaciones se realizaron en Dinamarca, el continente y el país se pueden agregar fácilmente. Además, solo se proporcionó el nombre científico. Se puede obtener una taxonomía más alta utilizando herramientas de software como OpenRefine. Usted además es consciente de que hay errores tipográficos cometidos por los digitalizadores.

  1. Descargar UC-BL-2-ForCleaning.zip. (45 KB)

  2. Identifique y corrija cualquier año inválido.

  3. Verifique y corrija la taxonomía.

  4. Verifique que las coordenadas son correctas para las dos localidades dadas. Corrija las que no lo sean. Las coordenadas deben estar en formato decimal.

  5. Agregue cualquier dato de los elementos faltantes que puedan derivarse utilizando los datos disponibles

  6. Recuerde conservar la información original proporcionada y documentar sus cambios y suposiciones como parte de los registros individuales y los metadatos.

  7. Use la hoja de ejercicios para proporcionar sus respuestas y envíe el archivo de texto limpiado en el paso 1.

el conjunto de datos debe contener sólo los años 1883-1939

Ejercicio 3

Publicación de datos

Para este ejercicio, asumirá el rol de la persona responsable de publicar los datos limpios en línea a través de la red GBIF. Se le ha proporcionado un archivo multimedia y un archivo histórico de identificación que debe publicarse junto con las observaciones. El miembro del personal a cargo de la calidad de los datos le ha proporcionado conjuntos de datos limpios para que los publique.

  1. Descargar UC-BL-3-ForPublication.zip. (65 KB)

  2. Utilice la instalación IPT previamente proporcionada para publicar el conjunto de datos dado.

  3. Utilice la hoja de ejercicios para proporcionar sus respuestas y el enlace al conjunto de datos publicado.