Caso de Uso - Aves de la literatura
|
Familiarícese con el escenario del caso de uso. |
Escenario
Proyecto de movilización de datos de la literatura "Aves caídas en los faros daneses, 1883–1939"
Esta narrativa fue desarrollada como base para ejercicios prácticos del curso de movilización de datos de biodiversidad y el concepto y contenido del ejercicio fue desarrollado por Alberto González-Talaván, Andrea Hahn, Laura Russell y Sharon Grant. Se basa en una adaptación previa de Alberto González-Talaván, Danny Vélez, Larissa Smirnova, Laura Russell, Mélianie Raymond y Nicolas Noé.
Es un escenario ficticio basado en un proyecto y en un conjunto de datos reales y está destinado a fines educativos únicamente. Se atribuyen el proyecto original y el conjunto de datos original al nodo GBIF danés, DanBIF.
Descripción
El Museo de Historia Natural de Dinamarca (NHM-DK) es un centro de investigación asociado con la Universidad de Copenhague. Su biblioteca es miembro de la asociación nacional de bibliotecas que recientemente recibió fondos estatales para poner en línea los recursos que poseen sus miembros. El NHM-DK desea comenzar a digitalizar los cuadernos de campo, las publicaciones de revistas y los libros que se encuentran en su biblioteca, algunos de los cuales tienen un valor histórico significativo.
Después de una breve consulta con sus socios habituales, NHM-DK recibió una sugerencia del director de la oficina de gestión del Parque Nacional Nordjylland. Les gustaría que se digitalizara el contenido de una recopilación de literatura clásica particular para un proyecto que están ejecutando: "Aves en los faros daneses, 1883-1939" (en danés, "Fuglene ved de danske Fyr, 1883-1939"). Quieren utilizar cualquier dato de registros biológicos consignado en los libros de dos faros (Lodbjerg Fyr y Hanstholm Fyr) para un proyecto de exhibición en el lugar.
El NHM-DK ha iniciado conversaciones con el nodo nacional de GBIF, DanBIF, sobre la movilización de la información contenida en estos volúmenes, es decir, para preservar sus contenidos para el futuro y proporcionar acceso en línea para todos. Con la participación de DanBIF, existe la intención de publicar y registrar los datos extraídos resultantes en GBIF. Como GBIF requiere que se aplique una licencia con todos los datos publicados, el museo ha decidido publicar los datos con una licencia Creative Commons que permite el uso de datos con atribución (CC-BY).
Los servicios informáticos necesarios son proporcionados por la Unidad de Tecnología de la Universidad de Copenhagen, como para todos los proyectos digitales de los museos.
El subdirector del HHM-DK, que está coordinando este trabajo, ha elaborado un esquema general del mismo:
-
El museo llevará a cabo la digitalización de la literatura mediante dos miembros del personal de la biblioteca, capacitados en el uso del escáner de la biblioteca, para escanear volúmenes delicados. También extraerán el texto de los escaneos mediante un software de reconocimiento óptico de caracteres (OCR).
-
Tres voluntarios de la Sociedad Ornitológica de Copenhague (COS), que colaboran regularmente con el museo y están familiarizados con las aves de la región, han sido reclutados para ayudar y completarán la transferencia de datos de los PDF escaneados al formato de hoja de cálculo. Deberán ir al museo y utilizar las computadoras disponibles en la biblioteca para acceder a los archivos almacenados en la intranet del museo (red privada).
-
El curador de ornitología del Departamento de Aves del NHM-DK dirigirá el equipo responsable de la verificación taxonómica, la curación, la limpieza, el formato y la transformación de los datos, y supervisará la introducción de metadatos para el conjunto de datos publicado. El equipo incluye un investigador colaborador de Suecia y dos estudiantes posdoctorales. Han sido seleccionados para esta tarea porque están acostumbrados a trabajar con datos sobre biodiversidad. Todos ellos utilizarán sus propios computadores de trabajo.
-
El administrador de nodo de DanBIF se asegurará de que la institución esté debidamente registrada en GBIF como publicador de datos, y de que el director adjunto y el curador de ornitología tengan las credenciales adecuadas y el acceso a la instancia de IPT de DanBIF para cargar y publicar los datos.
Recopilación de datos originales
En el período 1883-1939, había 45 faros y buques faro en funcionamiento en Dinamarca. Estos faros fueron utilizados por varias especies de aves durante las noches del período de migración de aves desde los años 1886 hasta 1939. La presencia y las actividades de estas aves fueron registradas, especialmente por los guardianes de estos faros que también colectaban especímenes que se enviaban al museo de Copenhagen. Estas aves fueron cuidadosamente conservadas y catalogadas por los encargados de la colección en el museo y los especímenes aún se pueden encontrar allí hoy en día. También se documentaron las observaciones de las condiciones meteorológicas durante las noches en las que los cuidadores observaron las aves.
Descripción de datos análogos
Este es un ejemplo de la descripción de una serie de observaciones de especies de uno de los libros (en alemán, excepto el nombre común de la especie que se proporciona en danés).
Descripción de datos escaneados y traducidos
Este es un ejemplo de la salida escaneada y traducida del ejemplo análogo anterior.
Descripción de datos digitales
Al estudiar el extracto del libro, los voluntarios de la Sociedad de Ornitología de Copenhague sugieren extraer los siguientes datos del texto escaneado y traducido:
-
Nombre científico que aparece en el libro
-
Nombre(s) común(es) en danés que aparece(n) en el libro
-
Localidad
-
Año/mes/día
-
Número observado de individuos
-
Sexo
-
Etapa de la vida
-
Observaciones
-
URL de la página del libro digitalizado en la que se proporciona el registro biológico
Ejercicios
Descargue el archivo adjunto ejercicio. (MS Word, 2,8 MB)
Ejercicio 1
Captura de datos
Se han completado los escaneos y el reconocimiento de caracteres (OCR) de los libros. Los datos de registros biológicos ahora deben extraerse de esas fuentes y compilarse en un formato de hoja de cálculo.
Los datos originales estaban en alemán y, para facilitar su uso cuando se publiquen en línea, el director del proyecto desea que estén disponibles en inglés.
-
Asuma el rol de un voluntario encargado de transformar el texto traducido en una hoja de cálculo como registros biológicos individuales. Los registros biológicos necesitarán que se les asignen números únicos.
-
Cree una hoja de cálculo utilizando los campos de datos enumerados en la Descripción de datos digitales utilizando los datos encontrados en el ejemplo anterior registrados por: Chr. P. Lütken.
-
Use la hoja de ejercicios para proporcionar sus respuestas y envíe la hoja de cálculo creada en el paso previo.
| En los ejemplos utilizados, los registros biológicos individuales no siempre contienen datos para completar todas las columnas de la hoja de cálculo. |
Ejercicio 2
Gestión de datos
Los voluntarios de la Sociedad Ornitológica de Copenhague han recopilado los datos en un formato de hoja de cálculo. Al asumir el rol de curador de ornitología en el departamento de aves, se le ha asignado la responsabilidad de los problemas relativos a la calidad de los datos.
A través de la georreferenciación retrospectiva, se han agregado coordenadas al conjunto de datos junto con la localidad, pero no otra geografía superior. Dado que todas las observaciones se realizaron en Dinamarca, el continente y el país se pueden agregar fácilmente. Además, solo se proporcionó el nombre científico. Se puede obtener una taxonomía más alta utilizando herramientas de software como OpenRefine. Usted además es consciente de que hay errores tipográficos cometidos por los digitalizadores.
-
Descargar UC-BL-2-ForCleaning.zip. (45 KB)
-
Identifique y corrija cualquier año inválido.
-
Verifique y corrija la taxonomía.
-
Verifique que las coordenadas son correctas para las dos localidades dadas. Corrija las que no lo sean. Las coordenadas deben estar en formato decimal.
-
Agregue cualquier dato de los elementos faltantes que puedan derivarse utilizando los datos disponibles
-
Recuerde conservar la información original proporcionada y documentar sus cambios y suposiciones como parte de los registros individuales y los metadatos.
-
Use la hoja de ejercicios para proporcionar sus respuestas y envíe el archivo de texto limpiado en el paso 1.
| el conjunto de datos debe contener sólo los años 1883-1939 |
Ejercicio 3
Publicación de datos
Para este ejercicio, asumirá el rol de la persona responsable de publicar los datos limpios en línea a través de la red GBIF. Se le ha proporcionado un archivo multimedia y un archivo histórico de identificación que debe publicarse junto con las observaciones. El miembro del personal a cargo de la calidad de los datos le ha proporcionado conjuntos de datos limpios para que los publique.
-
Descargar UC-BL-3-ForPublication.zip. (65 KB)
-
Utilice la instalación IPT previamente proporcionada para publicar el conjunto de datos dado.
-
Utilice la hoja de ejercicios para proporcionar sus respuestas y el enlace al conjunto de datos publicado.