Documentación

Este módulo ofrece información sobre la importancia de la documentación.

En este vídeo (09:47), ofreceremos una visión general de la importancia de la documentación en relación con la gestión y la publicación de datos. Aprenderá sobre el mapeo de datos, las relaciones entre datos y los metadatos.

Si no puede ver el vídeo incrustado, puede download hacerlo localmente. (MP4 - 35,2 MB)

Presentation transcript

Haga clic para ampliar

 

foundations documentation Slide1

Diapositiva 1 - Fundamentos - Documentación

En esta presentación, ofreceremos una visión general de la importancia de la documentación en relación con la gestión y publicación de datos. Aprenderá sobre el mapeo de datos, las relaciones entre datos y los metadatos.

foundations documentation Slide2

Diapositiva 2 - Documentación

En las presentaciones anteriores de Fundamentos, analizamos los elementos individuales que componen tanto sus datos como los contenedores que los almacenan. Ahora veremos cómo documentar esos datos y qué desea hacer con ellos.   Según el director Steven Spielberg,   “La gente ha olvidado cómo contar una historia. Las historias ya no tienen un desarrollo ni un final. Suelen tener un comienzo que nunca termina.” (Steven Spielberg)    La documentación es la historia de tu proyecto o conjunto de datos. Siempre debe tener un principio, un desarrollo y un final concretos. En esencia, deberías poder responder a ciertas preguntas en puntos específicos:   Al principio: ¿Qué pretendía lograr nuestro proyecto? ¿Cuál fue el propósito de crear el conjunto de datos?

En el centro: ¿Qué hemos hecho realmente? ¿Qué hemos conseguido?

Al final: ¿Qué no hemos conseguido? ¿Por qué? ¿Qué debería ocurrir a continuación?

foundations documentation Slide3

Diapositiva 3 - Conceptos clave

Para documentar tus datos y hacerlos lo más aptos posible para ti y para futuros usuarios, tienes que seguir estos tres pasos esenciales:

  1. Adaptación de sus datos a los formatos y normas existentes, si es necesario

  2. Planificación del traslado de datos

  3. Crear metadatos útiles que describan sus datos

foundations documentation Slide4

Diapositiva 4 - Mapeo de datos

Comenzaremos analizando formas de describir sus datos, luego mostraremos cómo mapear sus datos de una estructura de datos a otra y, finalmente, hablaremos sobre cómo registrar metadatos sobre sus datos.   Primero, se trata de mapear los datos.   Este es el proceso que utilizarás para describir cómo los atributos de tu conjunto de datos pueden transformarse en atributos de otro conjunto de datos diferente.   El mapeo de datos es el “Proceso de identificar el/los campo(s) de inicio dentro del conjunto de datos A y su(s) campo(s) correspondiente(s) en el conjunto de datos B”.  En este ejemplo, el conjunto de datos A tiene 10 columnas. Hay: * algunos campos enteros representados por los cuadrados morados, * algunos campos booleanos representados por los triángulos rojos * algunos campos de fecha representados por pentágonos azules * algunos campos de texto, estrellas verdes de 8 puntas * y algunos campos complejos

foundations documentation Slide5

Diapositiva 5 - Mapeo de datos

El conjunto de datos B tiene un conjunto diferente de campos, 15 en total.   Lo que necesitamos hacer es identificar qué campos del conjunto de datos A coinciden con qué campos del conjunto de datos B

foundations documentation Slide6

Diapositiva 6 - Mapeo de A a B

Lo hacemos describiendo las relaciones.

Por ejemplo, el conjunto de datos A tiene un campo de ID, al igual que el conjunto de datos B. Podemos trazar una línea directa entre ambos. Esto se denomina coincidencia uno a uno.   Pregunta: ¿Puedes ver alguna otra coincidencia uno a uno? Respuesta: Estado, Exp?, ¡Elefante rosa!   Otro tipo de relación es la de uno a muchos. En estos casos, hay un único campo en el conjunto de datos A que se corresponde con dos o más campos en el conjunto de datos B. La fecha es un ejemplo.   También puede encontrar casos en los que más de un campo del conjunto de datos A contiene datos de más de un campo del conjunto de datos B. Los campos de notas suelen presentar este problema.

foundations documentation Slide7

Diapositiva 7 - Planificación de movimientos de datos - Relaciones entre datos

De hecho, hay seis relaciones:

  1. Algunos campos se asignarán uno a uno (1:1), lo que significa que la columna original del conjunto de datos A coincide exactamente con otra del conjunto de datos B

  2. Algunos campos se asignarán muchos a uno (∞:1) , lo que significa que algunas columnas del conjunto de datos A pueden fusionarse (o concatenarse) para que coincidan con una sola del conjunto de datos B

  3. Algunos campos se asignarán de uno a muchos (1:∞), lo que significa que una columna del conjunto de datos A tendrá que dividirse en dos o más campos para que coincida con los campos del conjunto de datos B

  4. Algunos campos pueden no existir todavía cero a uno (0:1), lo que significa que cierta información no está presente en el conjunto de datos A y debe añadirse en una nueva columna para que coincida con un campo existente en el conjunto de datos B

  5. Algunos campos pueden no tener un lugar para ir de uno a cero (1:0), lo que significa que alguna información presente en el conjunto de datos A no coincide con ningún campo existente en el conjunto de datos B

  6. Algunos campos se mapearán many-to-many (∞ : ∞), lo que significa que la información del conjunto de datos A está dispersa en diferentes campos, que no coinciden exactamente con los existentes en el conjunto de datos B

foundations documentation Slide8

Diapositiva 8 - Planificación de movimientos de datos - Transformaciones

Cada uno de los tipos de relación tiene sus propios matices en cuanto a cómo vas a tener que manejarlos.

  1. uno a uno (1:1) - Cuidado con los tipos de campo. Si no son iguales. Tendrá que manipularlos.

  2. muchos-a-uno (∞:1) - Estos campos tendrán que unirse para entrar en el campo.

  3. uno-a-muchos (1:∞) - Estos campos deberán dividirse y colocarse en campos diferentes

  4. cero a uno (0:1) - Averigua cómo (o si) puedes rellenarlos. ¿Están los datos mezclados en un campo de notas? Si es así, ¿cómo se sacan?

  5. uno a cero (1:0) - O bien desecha los datos o bien añade un campo. Es posible que ni siquiera tenga un campo en el otro conjunto de datos. ¿Puede/debe crear un nuevo campo?

  6. muchos a muchos (∞: ∞) - "¡Por el amor de un ser superior!" Esto generalmente significa que los datos que recibes están muy desordenados y tomará tiempo limpiarlos antes de poder mapearlos.

foundations documentation Slide9

Diapositiva 9 - Planificación de movimientos de datos - Documento de mapeo

Este es un ejemplo de documento de mapeo. Obsérvese que no sólo documentamos las relaciones, sino que también articulamos (a nuestro leal saber y entender) lo que debe hacerse con los datos.

foundations documentation Slide10

Diapositiva 10 - Metadatos

Hemos hablado mucho sobre documentar las estructuras que contienen tus datos, pero también debes documentar la información que les da contexto. Esto se llama metadatos, ¡y son datos sobre tus datos!   Como mencionamos en la sección sobre calidad de datos, sus metadatos deben ser lo suficientemente completos como para permitir la reutilización de los datos por parte de terceros sin que estos tengan que hacer referencia a la fuente de datos

foundations documentation Slide11

Diapositiva 11 - Metadatos

Hablaremos de esto con más detalle en sesiones posteriores, pero como guía rápida una buena documentación debería incluir:

  • Un título: debe ser descriptivo, fácil de recordar y, a ser posible, único. Es bueno incluir fechas en el nombre de un conjunto de datos, por ejemplo, para poder hacer un seguimiento de las versiones.

  • Una narrativa - Debe describir la justificación de la creación del conjunto de datos. Debe incluir al menos información general sobre la cobertura espacial, temporal y taxonómica y ofrecer al usuario potencial una visión general de los usos que pueden ser apropiados para los datos sin transformación adicional.

  • Fuente de información - Si no ha recogido o medido los datos usted mismo, ¿de dónde o de quién los ha obtenido?

  • Linaje - ¿Tiene el conjunto de datos un historial? ¿Se ha transformado alguno de los campos con respecto al original?

  • Declaración de exactitud - Utilizando los conceptos de exactitud, precisión, errores e incertidumbre que hemos discutido anteriormente, ¿hay algún problema con el conjunto de datos que deba ser conocido por un usuario?

  • Fechas y esperanza de vida: ¿Cuándo estará disponible el conjunto de datos? ¿Cuánto tiempo será válido? ¿Cuándo se actualizará, si es que se actualiza alguna vez?

  • Definiciones de los campos - Describe el formato de los campos y qué tipo de datos contiene cada uno. ¿Se ha realizado alguna limpieza o transformación de los datos originales? Es importante que lo sepa si va a adaptarlos a una norma como Darwin Core.

  • Metodología de colecta – ¿Cómo se recopilaron los datos? ¿Dónde se utilizan protocolos que afectarán su aptitud para su uso?

  • Declaración de integridad - ¿Qué falta en los datos y por qué?

  • Condiciones de uso y restricciones - ¿Dónde y cómo se pueden utilizar los datos? Para la mayoría de los portales, y GBIF en particular, los datos deben utilizar licencias muy abiertas, por lo que es muy importante comprender los requisitos de los propietarios de los datos y sus instituciones.

  • Custodia/Información de contacto - Debe tratarse de la institución responsable del conjunto de datos tal y como se le ha presentado, así como (si es posible) de la persona que creó el conjunto de datos. También debe haber un contacto técnico responsable de la publicación del conjunto de datos.

foundations documentation Slide12

Diapositiva 12 - Conclusión

Este vídeo forma parte de una serie de presentaciones utilizadas en el curso de Movilización de Datos de Biodiversidad del GBIF. El programa de estudios sobre movilización de datos de biodiversidad se desarrolló originalmente como parte del Programa de Desarrollo de Información sobre Biodiversidad, financiado por la Unión Europea.   Esta presentación fue creada originalmente por Sharon Grant y narrada por Sophie Pamerlon.