Documentación
| Este módulo ofrece información sobre la importancia de la documentación. |
|
En este vídeo (09:47), ofreceremos una visión general de la importancia de la documentación en relación con la gestión y la publicación de datos. Aprenderá sobre el mapeo de datos, las relaciones entre datos y los metadatos. Si no puede ver el vídeo incrustado, puede download hacerlo localmente. (MP4 - 35,2 MB) |
Presentation transcript
Haga clic para ampliar
Diapositiva 1 - Fundamentos - Documentación
En esta presentación, ofreceremos una visión general de la importancia de la documentación en relación con la gestión y publicación de datos. Aprenderá sobre el mapeo de datos, las relaciones entre datos y los metadatos.
Diapositiva 2 - Documentación
En las presentaciones anteriores de Fundamentos, analizamos los elementos individuales que componen tanto sus datos como los contenedores que los almacenan. Ahora veremos cómo documentar esos datos y qué desea hacer con ellos. Según el director Steven Spielberg, “La gente ha olvidado cómo contar una historia. Las historias ya no tienen un desarrollo ni un final. Suelen tener un comienzo que nunca termina.” (Steven Spielberg) La documentación es la historia de tu proyecto o conjunto de datos. Siempre debe tener un principio, un desarrollo y un final concretos. En esencia, deberías poder responder a ciertas preguntas en puntos específicos: Al principio: ¿Qué pretendía lograr nuestro proyecto? ¿Cuál fue el propósito de crear el conjunto de datos?
En el centro: ¿Qué hemos hecho realmente? ¿Qué hemos conseguido?
Al final: ¿Qué no hemos conseguido? ¿Por qué? ¿Qué debería ocurrir a continuación?
Diapositiva 3 - Conceptos clave
Para documentar tus datos y hacerlos lo más aptos posible para ti y para futuros usuarios, tienes que seguir estos tres pasos esenciales:
-
Adaptación de sus datos a los formatos y normas existentes, si es necesario
-
Planificación del traslado de datos
-
Crear metadatos útiles que describan sus datos
Diapositiva 4 - Mapeo de datos
Comenzaremos analizando formas de describir sus datos, luego mostraremos cómo mapear sus datos de una estructura de datos a otra y, finalmente, hablaremos sobre cómo registrar metadatos sobre sus datos. Primero, se trata de mapear los datos. Este es el proceso que utilizarás para describir cómo los atributos de tu conjunto de datos pueden transformarse en atributos de otro conjunto de datos diferente. El mapeo de datos es el “Proceso de identificar el/los campo(s) de inicio dentro del conjunto de datos A y su(s) campo(s) correspondiente(s) en el conjunto de datos B”. En este ejemplo, el conjunto de datos A tiene 10 columnas. Hay: * algunos campos enteros representados por los cuadrados morados, * algunos campos booleanos representados por los triángulos rojos * algunos campos de fecha representados por pentágonos azules * algunos campos de texto, estrellas verdes de 8 puntas * y algunos campos complejos
Diapositiva 5 - Mapeo de datos
El conjunto de datos B tiene un conjunto diferente de campos, 15 en total. Lo que necesitamos hacer es identificar qué campos del conjunto de datos A coinciden con qué campos del conjunto de datos B
Diapositiva 6 - Mapeo de A a B
Lo hacemos describiendo las relaciones.
Por ejemplo, el conjunto de datos A tiene un campo de ID, al igual que el conjunto de datos B. Podemos trazar una línea directa entre ambos. Esto se denomina coincidencia uno a uno. Pregunta: ¿Puedes ver alguna otra coincidencia uno a uno? Respuesta: Estado, Exp?, ¡Elefante rosa! Otro tipo de relación es la de uno a muchos. En estos casos, hay un único campo en el conjunto de datos A que se corresponde con dos o más campos en el conjunto de datos B. La fecha es un ejemplo. También puede encontrar casos en los que más de un campo del conjunto de datos A contiene datos de más de un campo del conjunto de datos B. Los campos de notas suelen presentar este problema.
Diapositiva 7 - Planificación de movimientos de datos - Relaciones entre datos
De hecho, hay seis relaciones:
-
Algunos campos se asignarán uno a uno (1:1), lo que significa que la columna original del conjunto de datos A coincide exactamente con otra del conjunto de datos B
-
Algunos campos se asignarán muchos a uno (∞:1) , lo que significa que algunas columnas del conjunto de datos A pueden fusionarse (o concatenarse) para que coincidan con una sola del conjunto de datos B
-
Algunos campos se asignarán de uno a muchos (1:∞), lo que significa que una columna del conjunto de datos A tendrá que dividirse en dos o más campos para que coincida con los campos del conjunto de datos B
-
Algunos campos pueden no existir todavía cero a uno (0:1), lo que significa que cierta información no está presente en el conjunto de datos A y debe añadirse en una nueva columna para que coincida con un campo existente en el conjunto de datos B
-
Algunos campos pueden no tener un lugar para ir de uno a cero (1:0), lo que significa que alguna información presente en el conjunto de datos A no coincide con ningún campo existente en el conjunto de datos B
-
Algunos campos se mapearán many-to-many (∞ : ∞), lo que significa que la información del conjunto de datos A está dispersa en diferentes campos, que no coinciden exactamente con los existentes en el conjunto de datos B
Diapositiva 8 - Planificación de movimientos de datos - Transformaciones
Cada uno de los tipos de relación tiene sus propios matices en cuanto a cómo vas a tener que manejarlos.
-
uno a uno (1:1) - Cuidado con los tipos de campo. Si no son iguales. Tendrá que manipularlos.
-
muchos-a-uno (∞:1) - Estos campos tendrán que unirse para entrar en el campo.
-
uno-a-muchos (1:∞) - Estos campos deberán dividirse y colocarse en campos diferentes
-
cero a uno (0:1) - Averigua cómo (o si) puedes rellenarlos. ¿Están los datos mezclados en un campo de notas? Si es así, ¿cómo se sacan?
-
uno a cero (1:0) - O bien desecha los datos o bien añade un campo. Es posible que ni siquiera tenga un campo en el otro conjunto de datos. ¿Puede/debe crear un nuevo campo?
-
muchos a muchos (∞: ∞) - "¡Por el amor de un ser superior!" Esto generalmente significa que los datos que recibes están muy desordenados y tomará tiempo limpiarlos antes de poder mapearlos.
Diapositiva 9 - Planificación de movimientos de datos - Documento de mapeo
Este es un ejemplo de documento de mapeo. Obsérvese que no sólo documentamos las relaciones, sino que también articulamos (a nuestro leal saber y entender) lo que debe hacerse con los datos.
Diapositiva 10 - Metadatos
Hemos hablado mucho sobre documentar las estructuras que contienen tus datos, pero también debes documentar la información que les da contexto. Esto se llama metadatos, ¡y son datos sobre tus datos! Como mencionamos en la sección sobre calidad de datos, sus metadatos deben ser lo suficientemente completos como para permitir la reutilización de los datos por parte de terceros sin que estos tengan que hacer referencia a la fuente de datos
Diapositiva 11 - Metadatos
Hablaremos de esto con más detalle en sesiones posteriores, pero como guía rápida una buena documentación debería incluir:
-
Un título: debe ser descriptivo, fácil de recordar y, a ser posible, único. Es bueno incluir fechas en el nombre de un conjunto de datos, por ejemplo, para poder hacer un seguimiento de las versiones.
-
Una narrativa - Debe describir la justificación de la creación del conjunto de datos. Debe incluir al menos información general sobre la cobertura espacial, temporal y taxonómica y ofrecer al usuario potencial una visión general de los usos que pueden ser apropiados para los datos sin transformación adicional.
-
Fuente de información - Si no ha recogido o medido los datos usted mismo, ¿de dónde o de quién los ha obtenido?
-
Linaje - ¿Tiene el conjunto de datos un historial? ¿Se ha transformado alguno de los campos con respecto al original?
-
Declaración de exactitud - Utilizando los conceptos de exactitud, precisión, errores e incertidumbre que hemos discutido anteriormente, ¿hay algún problema con el conjunto de datos que deba ser conocido por un usuario?
-
Fechas y esperanza de vida: ¿Cuándo estará disponible el conjunto de datos? ¿Cuánto tiempo será válido? ¿Cuándo se actualizará, si es que se actualiza alguna vez?
-
Definiciones de los campos - Describe el formato de los campos y qué tipo de datos contiene cada uno. ¿Se ha realizado alguna limpieza o transformación de los datos originales? Es importante que lo sepa si va a adaptarlos a una norma como Darwin Core.
-
Metodología de colecta – ¿Cómo se recopilaron los datos? ¿Dónde se utilizan protocolos que afectarán su aptitud para su uso?
-
Declaración de integridad - ¿Qué falta en los datos y por qué?
-
Condiciones de uso y restricciones - ¿Dónde y cómo se pueden utilizar los datos? Para la mayoría de los portales, y GBIF en particular, los datos deben utilizar licencias muy abiertas, por lo que es muy importante comprender los requisitos de los propietarios de los datos y sus instituciones.
-
Custodia/Información de contacto - Debe tratarse de la institución responsable del conjunto de datos tal y como se le ha presentado, así como (si es posible) de la persona que creó el conjunto de datos. También debe haber un contacto técnico responsable de la publicación del conjunto de datos.
Diapositiva 12 - Conclusión
Este vídeo forma parte de una serie de presentaciones utilizadas en el curso de Movilización de Datos de Biodiversidad del GBIF. El programa de estudios sobre movilización de datos de biodiversidad se desarrolló originalmente como parte del Programa de Desarrollo de Información sobre Biodiversidad, financiado por la Unión Europea. Esta presentación fue creada originalmente por Sharon Grant y narrada por Sophie Pamerlon.