Datos marinos históricos

Familiarícese con el escenario del caso de uso.

Escenario

UC MS Calliostoma canaliculatum
Calliostoma canaliculatum (Lightfoot) 1786 observada en Estados Unidos de América por Sheldon Logan (bajo licencia CC-BY-NC 4.0)

Esta narración se elaboró como base para los ejercicios prácticos del curso de movilización de datos sobre biodiversidad, y el concepto y el contenido del ejercicio fueron desarrollados inicialmente por David Bloom y Amanda Whitmire para su uso en CESP2022-009 (Expanding the Network: Bringing marine research stations and library collections into the data-sharing community).

Se trata de un escenario parcialmente ficticio basado en un proyecto y unos conjuntos de datos reales. Se ha concebido únicamente con fines didácticos. Los datos del caso no pueden reproducirse para ningún otro fin sin el permiso de la Biblioteca Harold A. Miller de la Estación Marina Hopkins (HMS-Library@lists.stanford.edu).

Descripción

La Estación Marina Hopkins (HMS) es el laboratorio marino de la Universidad de Stanford. La estación está situada a dos horas al sur del campus principal de Stanford, en la costa occidental de California. Con uno de los laboratorios marinos más antiguos de Estados Unidos, la biblioteca de HMS alberga una extensa colección de datos marinos históricos en forma de manifiestos de barcos, cuadernos de bitácora, libros de campo, trabajos académicos (incluidos trabajos de estudiantes) y otros materiales analógicos.

Mientras contribuía a varios proyectos de digitalización a gran escala y de repositorios en línea, el Bibliotecario Jefe conoció a un Administrador del Nodo local de GBIF que animó a HMS a iniciar el proceso de digitalización y publicación de la extensa colección de datos de biodiversidad de la biblioteca a GBIF y a otros agregadores de datos. Recientemente, el Bibliotecario ha hecho prioritario comenzar el proceso de transferir los datos de los libros de campo, tarjetas de notas, y a una nueva colección de archivos de imagen (.jpg), documentos pdf y hojas de cálculo que contienen datos de eventos y registros biológicos. Los nuevos archivos, y los datos que contienen, se organizarán en el nuevo sistema de gestión de contenidos de la biblioteca.

El proceso de digitalización y publicación de los datos de HMS llevará tiempo. El presupuesto de la biblioteca se asigna anualmente y no incluye fondos para la digitalización ni para contratar nuevo personal para el proyecto. Los recursos humanos se limitan al Bibliotecario Jefe (quien tiene un doctorado en Oceanografía), un Auxiliar de Biblioteca con un Máster en Biblioteconomía y Ciencias de la Información, un estudiante de licenciatura remunerado por 10 horas semanales y dos jubilados locales que trabajan como voluntarios en la biblioteca dos veces por semana en bloques de cuatro horas.

El Bibliotecario y el Asistente ya poseen un escáner de gran formato y el software necesario para digitalizar la gran variedad de documentos de la biblioteca, incluidos los materiales encuadernados. Juntos, han determinado que la digitalización debe comenzar con el trabajo de uno de los coleccionistas más conocidos de HMS, Willis G. Hewatt. También han desarrollado un flujo de trabajo preliminar para la tarea:

Identifique una localidad o transecta específica dentro del archivo Hewatt y, a continuación, identifique todos los documentos históricos o modernos de profesores o estudiantes, artículos de revistas, libros y recursos asociados (por ejemplo, fichas, mapas, libros de campo).

El Asistente de Biblioteca extraerá todos los recursos analógicos de los archivos del HMS y los escaneará a los formatos digitales adecuados, utilizando el reconocimiento óptico de caracteres (OCR) siempre que sea posible. Los datos formateados en tablas se convertirán e importarán a una hoja de cálculo común.

Los voluntarios revisarán los archivos OCR en busca de errores de conversión y para confirmar que las tablas coinciden con los materiales fuente analógicos. Se consultará a los autores vivos cuando surjan dudas sobre su trabajo.

Bajo la supervisión del Auxiliar de Biblioteca y del Bibliotecario Jefe (de forma indirecta), el estudiante en prácticas asignará las tablas de datos a los campos Darwin Core añadiendo información de los documentos asociados y otros recursos escritos (por ejemplo, artículos de revistas, manuscritos). El Bibliotecario Jefe realizará una revisión final para confirmar la exactitud e integridad de los datos.

Todas las tablas estandarizadas se enviarán al Administrador del Nodo de GBIF, que proporcionará acceso al IPT del Nodo y que registrará la Estación Marina Hopkins en GBIF y se asegurará de que los conjuntos de datos se publiquen correctamente tanto en GBIF como en el Sistema de Información sobre Biodiversidad Oceánica (OBIS).

Recopilación de datos originales

La primera colección de datos seleccionada por el Bibliotecario Jefe es la "Transecta Hewatt", un registro observacional cualitativo de la zona intermareal directamente adyacente a las instalaciones del HMS. Los datos a lo largo de la transecta de 108 yardas se muestrearon y registraron en cuadrículas de 1 yarda cuadrada. Aunque las observaciones se registraron de forma continua de 1931 a 1933, con observaciones adicionales añadidas en 1941, sólo un puñado de cuadrículas "representativas" seleccionadas se muestrearon de forma constante (Figura 1). En 1993, un trabajo de estudiantes (Gilman & Sagarin) intentó volver a estudiar la misma transecta, aunque sólo se observó una parte de la transecta original (Figuras 2a y 2b). Ambos proyectos entraron en el estudio con una lista de especies que se esperaba que estuvieran presentes en la transecta. La disertación de Hewatt y el trabajo estudiantil de Gilman & Sagarin fueron conservados por la biblioteca, junto con los trabajos relacionados publicados y revisados por pares. Los datos necesarios para publicar en GBIF, OBIS y otros agregadores de datos están repartidos entre todos los recursos del archivo de la biblioteca.

MS Figure1
Figura 1. Ejemplo de una tabla de datos de la tesis de Willis G. Hewatt de 1934 que muestra la abundancia de los 90 taxones más comunes a lo largo de una transecta intermareal de 108 yardas en la Estación Marina Hopkins.
MS Figure2a
Figura 2a. Tablas de datos de Gilman y Sagarin (1993) que muestran el recuento de 97 especies en 19 cuadrantes muestreados a lo largo de la transecta de Hewatt. Las tablas muestran los datos de Hewatt (en blanco) y los suyos (sombreados), con los totales a la derecha.
MS Figure2b
Figura 2b. Tablas de datos de Gilman y Sagarin (1993) que muestran los recuentos de 97 especies en 19 cuadrículas muestreadas a lo largo de la transecta de Hewatt. Las tablas muestran los datos de Hewatt (en blanco) y los suyos (sombreados), con los totales a la derecha.

Conversión y agregación de datos

Tanto Hewatt como Gilman/Sagarin registraron los datos de cada transecta en forma de tabla. Estas "listas" se convirtieron a un formato alineado con un conjunto de datos de registros biológicos (Figuras 3 y 4).

MS Figure3
Figura 3. Los datos de Hewatt transcritos a una hoja de cálculo. Se trata de un primer paso fundamental, pero no es un diseño de datos que sirva para cargarlos en bases de datos taxonómicas.
MS Figure4
Figura 4. Datos de Hewatt convertidos a un formato acorde con un conjunto de datos de registros de biodiversidad. Se ha extraído parte de la información de la tesis para empezar a construir cada registro.

Evaluación de datos

Como parte de la revisión del Bibliotecario Jefe, las tablas convertidas y agregadas incluyeron una atención especial a los datos específicos que describen (véase la Figura 5):

  • Profundidad de observación

  • Fecha y hora

  • Coordenadas geográficas

  • Descripciones de localidades

  • Métodos de investigación

  • Identificadores de especies

MS Figure5
Figura 5. Datos de Hewatt convertidos a un formato alineado con un conjunto de datos de registros biológicos y metadatos estándar Darwin Core. Tras añadir más términos de metadatos, cada observación de cuadrante se ha convertido en una fila con más de 65 columnas de información.

Referencias

  1. Hewatt, Willis Gilliland. “Estudios ecológicos sobre comunidades marinas intermareales seleccionadas de la bahía de Monterey”. Tesis doctoral, Universidad de Stanford, 1934. https://purl.stanford.edu/wr792fj0469.

  2. Gilman, Sarah E., y Raphael D. Sagarin. «Cambios faunísticos a largo plazo correlacionados con la temperatura en la zona intermareal rocosa». Documentos de estudiantes de la Estación Marina Hopkins. Stanford (California), 1993. Repositorio Digital de Stanford. https://purl.stanford.edu/jd254tq7230.

Ejercicios

Descargue the exercise sheet. (MS Word, 2,8 MB)

Ejercicio 1

Captura de datos

  1. Descargue UC-MS-2-ForCapture.pdf. (?? KB)

  2. Descargue UC-MS-2-template.xlsx. (82 KB)

  3. ¿Qué estructura de datos utilizaría para reflejar los datos?

  4. Crea una hoja de cálculo utilizando esta estructura y los datos.

  5. Use la hoja de ejercicios para proporcionar sus respuestas y envíe la hoja de cálculo creada en el paso previo.

Ejercicio 2

Gestión de datos

  1. Descargar UC-MS-2-ForCleaning.csv. (82 KB)

  2. Evalúe el conjunto de datos e identifique qué tipos de errores están presentes.

  3. Identifique posibles formas de corregir esos problemas y realice esas correcciones para el mayor número de errores que pueda.

  4. Use la hoja de ejercicios para proporcionar sus respuestas y envíe la hoja de cálculo.

Ejercicio 3

Publicación de datos

  1. Descargar UC-MS-3-ForPublication.csv. (402 KB)

  2. Utilice la instalación IPT previamente proporcionada para publicar el conjunto de datos dado.

  3. Utilice la hoja de ejercicios para proporcionar sus respuestas y el enlace al conjunto de datos publicado.