Ir al contenido principal

BIBLIOGUÍAS

Datos de investigación: Gestionar datos

Guía sobre qué son los datos de investigación, recomendaciones para gestionarlos durante una investigación y buenas prácticas para citarlos.

La gestión de los datos de investigación (GDI, del inglés RDM: Research Data Management) está presente en todas las fases de la investigación, y engloba desde la creación o recopilación, el procesamiento y análisis, la preservación, la publicación y la reutilización.

Buenas prácticas

El tratamiento de los datos hace referencia a limpiar y procesar los datos en bruto, recogidos o generados durante la investigación. Los ficheros de datos deben estar bien organizados y con una estructura coherente y ordenada. Se recomienda: 

  • Utilizar el mismo criterio de denominación para cada uno de los ficheros
  • Asignar nombres significativos y breves, sin espacios, tildes ni caracteres especiales
  • Identificar la versión del fichero en el propio nombre para facilitar la gestión de versiones
  • Realizar copias de seguridadtanto en el almacenamiento local como en red

Se debe asegurar la integridad de los datos creando una versión definitiva del conjunto. 

Se deben seleccionar los datos que serán accesibles públicamente, ya que no todos pueden ser abiertos. Hay que tener en cuenta aspectos relativos a la propiedad intelectual (Ley 23/2006 de Propiedad Intelectual), la propiedad industrial, la privacidad o secreto y la protección de datos personales.

Cuando se obtienen datos personales, sensibles o confidenciales vía cuestionarionario, entrevistas, etc. se debe mantener la confidencialidad según indica la ley LO 15/1999 de Protección de Datos de Carácter Personal. Para cumplir con los preceptos legales:

  • Hay que obtener el consentimiento de las personas implicadas para el tratamiento de sus datos mediante un formulario o acuerdo de participación
  • Hay que anonimizar la información de carácter personal en nuestros ficheros mediante un proceso de anonimización

El proceso de anonimización permite compartir datos preservando la privacidad. Para anonimizar los datos de carácter personal se recomienda:

  • Eliminar identificadores directos (ej. nombre, dirección)
  • Agregar o reducir la precisión de la información (ej. reemplazando la fecha de nacimiento por grupos de edad)
  • Generalizando el significado de textos detallados (ej. reemplazando el área de especialización de un médico con una especialización médica)
  • Anonimizar los datos relacionados, donde las relaciones entre variables en conjuntos de datos vinculados o combinados con otros resultados públicos, puedan revelar identidades
  • Anonimizar los datos geo-referenciados reemplazando las coordenadas del punto con características no reveladoras, o imponer restricciones de acceso a los datos
  • Utilizar pseudónimos

 

OpenAIRE recomienda la utilización de la herramienta Amnesia de anonimización de datos.

Recursos e información de apoyo para el uso de la herramienta disponible en la guía

 

Elegir formatos de archivos que sean estándar, abiertos y que puedan ser leídos en el futuro.

A nivel internacional, se recomiendan:

  • Para datos textuales: txt, xml, rtf. (Se aceptan html, doc, docx)

  • Datos tabulares con metadatos ampliados: SPSS por, SPSS, Stata, SAS, DDI xml. (Se permiten sav, dta, mdb, accdb)

  • Datos tabulares con metadatos mínimos: csv, tab. (Se permiten txt, xls, slxs, mdb, accdb, dbf, ods)

  • Datos geoespaciales: shp, shx, dbf, prj, sbx, sbn, tif, tfw, dwg, gml. (Se aceptan mdb, mif, kml, ai, dxf, svg)

  • Imagen digital: tif. (Se aceptan jpeg, jpg, jp2, gif, tiff, psd, bmp, png, pdf, pdf/a)

  • Audio: flac. (Se aceptan mp3, aif, wav)

  • Audio digital: mp4, ogv, ogg, mj2. (Se aceptan avchd)

  • Para la documentación y el plan de gestión de datos: rtf, pdf, xhtml, htm, odt. (Se aceptan txt, doc, docx, xls, xlsx, xml)

Es importante definir la licencia de uso y reutilización que se quiere permitir que tengan los datos. Se debe incluir en los metadatos, en el repositorio o en el archivo adjunto a los datos "readme file". Las licencias más comunes son:

PDDL Public Domain Dedication and License

This {DATA(BASE)-NAME} is made available under the Public Domain Dedication and License v1.0 whose full text can be found at: opendatacommons.org/licenses/pddl/1.0/

ODC-By Attribution License

This {DATA(BASE)-NAME} is made available under the Open Data Commons Attribution License: opendatacommons.org/licenses/by/

ODC-ODbL Attribution Share-Alike

This {DATABASE-NAME} is made available under the Open Database License: opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Content License: opendatacommons.org/licenses/odbl/1.0/

Al depositar el archivo de datos de investigación, algunos repositorios le asignan un identificador unívoco y permanente. Este identificador es muy importante ya que asegura el almacenamiento del archivo y su localización de forma permanente aunque el recurso cambie de localización.

El más común es DOI (Digital Object Identifier), también se utilizan handle, purl, ark. Es un elemento obligatorio a incluir en la referencia bibliográfica para citar los datos.

Se recomienda proporcionar la cita normalizada para favorecer el reconocimiento de la autoría:

Apellidos, iniciales autor (año de publicación). Título del dataset. [dataset] Versión. Repositorio o Publisher. Identificador unívoco (DOI o handle).

 

Ejemplo de dataset en un repositorio:

Ball-Damerow, J.E., Brenskelle, L., Barve, N., LaFrance, R., Soltis, P.S., Sierwald, P., ... Guralnick, R. (2019). Bibliographic dataset characterizing studies that use online biodiversity databases  [data set]. Version 1. Zenodo. doi.org/10.5281/zenodo.2589439

 

Más información en: Cómo citar los datos de investigación.

Se recomienda subir al repositorio, junto al archivo de datos, un archivo complementario en formato plano .txt titulado "Readme file", con los campos esenciales de información:

  • Título del dataset
  • Contenido
  • Tipo de formato de los archivos
  • Nombre de los autores, email del autor/autores
  • Metodología
  • Licencia de uso 

Es importante seleccionar un repositorio que asigne a los datos un identificador unívoco y permanente (DOI, PURL, ARK) para que sean localizables aunque la url cambie. 

El registro re3data recopila los repositorios de datos existentes clasificados por disciplinas, tipo de datos, licencia de uso, área geográfica, y otros criterios.

Logotipo del registro de repositorios de datos re3data

La revista Scientific Data, de Nature, recomienda algunos repositorios por temática y tipo de datos.

Document