Ir al contenido principal

BIBLIOGUÍAS

Datos de investigación: Inicio

Guía sobre qué son los datos de investigación, recomendaciones para gestionarlos durante una investigación y buenas prácticas para citarlos.

Qué son los datos de investigación

Se considera todo aquel material que ha sido registrado durante la investigación, está reconocido por la comunidad científica y sirve para certificar los resultados de la investigación que se realiza. Pueden ser numéricos, descriptivos o visuales, en estado bruto o analizado, experimentales u observacionales.

Cómo publicar datos de investigación

Como material suplementario adjunto al artículo

Las instrucciones para adjuntar los datos como material suplementario se encuentran en la política editorial de cada revista, en el apartado de información para autores.

Según la tipología de los datos, los formatos serán distintos. En el caso de protocolos, secuencias, estructuras... se depositan en un repositorio (p.e. Genbank, ProteinDataBank, etc.) y en el artículo se incluye el número identificación permanente asignado. 

Como un artículo de datos en una revista de datos

Los artículos de datos se publican en revistas de datos y están revisados por pares. Principlamente son de acceso abierto para que los datos puedan ser reutilizados y citados. Se pueden consultar las revistas de datos en Zenodo List of Data Journals.

Depositarlos en un repositorio de datos

Al conjunto de datos se le asigna un número de identificación persistente que se debe incluir en el artículo. Los repositorios de datos están registrados en re3data y se pueden consultar desde el buscador Repository Finder.

Actualmente la Universidad de Navarra no cuenta con un repositorio institucional propio dedicado a la preservación de datos de investigación. Sin embargo, existe un importante número de repositorios externos que ofrecen este servicio. Cada uno de estos repositorios cuenta con una "Comunidad Universidad de Navarra", donde los investigadores de la institución suben sus datos de investigación. 

En líneas generales, los repositorios de datos de investigación en los que actualmente depositan los datos de investigación se dividen en dos tipos:

  • Temáticos: dedicados a un área o disciplina concreta.
  • Generales: tienen un carácter más abierto y conjugan una amplia tipología de datos.

Beneficios de compartir datos

 

Beneficios de compartir datos
  • Asegura la preservación de datos que podrían perderse
  • Mejora la transparencia y la fiabilidad de los estudios científicos
  • Facilita la localización de datos para su reutilización y evita la duplicación de esfuerzos
  • Aumenta el impacto de los autores a través de las citas y descargas registradas
  • Posibilita la colaboración entre grupos de investigación a nivel nacional e internacional

 

¿Podemos ayudarte?

Profile Photo
Dadun (UNAV)
Contacto:
Biblioteca Central
Sitio web

Buenas prácticas

El tratamiento de los datos hace referencia a limpiar y procesar los datos en bruto, recogidos o generados durante la investigación. Los ficheros de datos deben estar bien organizados y con una estructura coherente y ordenada. Se recomienda: 

  • Utilizar el mismo criterio de denominación para cada uno de los ficheros
  • Asignar nombres significativos y breves, sin espacios, tildes ni caracteres especiales
  • Identificar la versión del fichero en el propio nombre para facilitar la gestión de versiones
  • Realizar copias de seguridad, tanto en el almacenamiento local como en red

Se debe asegurar la integridad de los datos creando una versión definitiva del conjunto. 

Se deben seleccionar los datos que serán accesibles públicamente, ya que no todos pueden ser abiertos. Hay que tener en cuenta aspectos relativos a la propiedad intelectual (Ley 23/2006 de Propiedad Intelectual), la propiedad industrial, la privacidad o secreto y la protección de datos personales.

Cuando se obtienen datos personales, sensibles o confidenciales vía cuestionarionario, entrevistas, etc. se debe mantener la confidencialidad según indica la ley LO 15/1999 de Protección de Datos de Carácter Personal. Para cumplir con los preceptos legales:

  • Hay que obtener el consentimiento de las personas implicadas para el tratamiento de sus datos mediante un formulario o acuerdo de participación
  • Hay que anonimizar la información de carácter personal en nuestros ficheros mediante un proceso de anonimización.

El proceso de anonimización permite compartir datos preservando la privacidad. Para anonimizar los datos de carácter personal se recomienda:

  • Eliminar identificadores directos (ej. nombre, dirección)
  • Agregar o reducir la precisión de la información (ej. reemplazando la fecha de nacimiento por grupos de edad)
  • Generalizando el significado de textos detallados (ej. reemplazando el área de especialización de un médico con una especialización médica)​
  • Anonimizar los datos relacionados, donde las relaciones entre variables en conjuntos de datos vinculados o combinados con otros resultados públicos, puedan revelar identidades
  • Anonimizar los datos geo-referenciados reemplazando las coordenadas del punto con características no reveladoras, o imponer restricciones de acceso a los datos
  • Utilizar pseudónimos

 

OpenAIRE recomienda la utilización de la herramienta Amnesia de anonimización de datos.

Recursos e información de apoyo para el uso de la herramienta disponible en la guía

A la hora de subir tus Dataset a un repositorio institucional se recomienda tener en cuenta las siguientes recomendaciones:
  • Elegir formatos de archivos que sean estándar, abiertos y que pueden ser leídos en el futuro.
    • Para datos textuales: txt, xml, rtf. (Se aceptan HTML, doc, docx)
    • Datos tabulares con metadatos ampliados: SPSS por, SPSS, Stata, SAS, DDI xml. (Se permiten sav, dta, mdb, accdb)
    • Datos tabulares con metadatos mínimos: csv, tab. (Se permitn txt, xls, slxs, mdb, accbd, dbf, ods)
    • Datos geoespaciales: shp, shx, dbf, prj, sbx, sbn, tif, tfw, dwg, gml. (Se aceptan mdb, mif, kml, ai, dxf, svg)
    • Imagen digital: tif. (Se aceptan jpeg, jpg, jp2, gif, tiff, psd, bmp, png, pdf, pdf/a)
    • Audio: flac. (Se aceptan mp3, aif, wav)
    • Audio digital: mp4, ogv, ogg, mj2. (Se aceptan avchd)
    • Para la documentación y el plan de gestión de datos: rtf, pdf, xhtml, htm, odt. (Se aceptan txt, doc, docx, xls, xlsx, xml
  • Cómo nombrar tus archivos.
    • Hacer los nombres lo más cortos posible pero manteniendo la información básica.
    • No usar caracteres especiales como #, <, >, $, +, %,*, etc., ya que no todos los sistemas operativos los procesarán de la misma forma. 
    • En caso de introducir una fecha, se recomienda utilizar siempre el mismo formato (ej.: DD/MM/AAAA).
    • Utiliza barras (-) en lugar de barras bajas (_), compas y puntos (,) (.) o espacios. => Las barras normales (-) se mantienen visibles aunque se subraye el nombre del archivo, mientras que las barras bajas (_) desaparecen. 

Fuente: University of South Carolina for Data Management.

Es importante definir la licencia de uso y reutilización que se quiere permitir que tengan los datos. Se debe incluir en los metadatos, en el repositorio o en el archivo adjunto a los datos "readme file". Las licencias más comunes son:

PDDL Public Domain Dedication and License

This {DATA(BASE)-NAME} is made available under the Public Domain Dedication and License v1.0 whose full text can be found at: opendatacommons.org/licenses/pddl/1.0/

ODC-By Attribution License

This {DATA(BASE)-NAME} is made available under the Open Data Commons Attribution License: opendatacommons.org/licenses/by/

ODC-ODbL Attribution Share-Alike

This {DATABASE-NAME} is made available under the Open Database License: opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Content License: opendatacommons.org/licenses/odbl/1.0/

Al depositar el archivo de datos de investigación, algunos repositorios le asignan un identificador unívoco y permanente. Este identificador es muy importante ya que asegura el almacenamiento del archivo y su localización de forma permanente aunque el recurso cambie de localización.

El más común es DOI (Digital Object Identifier), también se utilizan handle, purl, ark.​ Es un elemento obligatorio a incluir en la referencia bibliográfica para citar los datos.

Se recomienda proporcionar la cita normalizada para favorecer el reconocimiento de la autoría:

Apellidos, iniciales autor (año de publicación). Título del dataset. [dataset] Versión. Repositorio o Publisher. Identificador unívoco (DOI o handle).

 

Ejemplo de dataset en un repositorio:

Ball-Damerow, J.E., Brenskelle, L., Barve, N., LaFrance, R., Soltis, P.S., Sierwald, P., ... Guralnick, R. (2019). Bibliographic dataset characterizing studies that use online biodiversity databases  [data set]. Version 1. Zenodo. doi.org/10.5281/zenodo.2589439

 

Más información en: Cómo citar los datos de investigación.

Se recomienda subir al repositorio, junto al archivo de datos, un archivo complementario en formato plano .txt titulado "Readme file", con los campos esenciales de información:

  • Título del dataset
  • Contenido
  • Tipo de formato de los archivos
  • Nombre de los autores, email del autor/autores
  • Metodología
  • Licencia de uso 

En el siguiente enlace se puede acceder a un ejemplo de documento txt. con la información básica sobre un dataset.

Es importante seleccionar un repositorio que asigne a los datos un identificador unívoco y permanente (DOI, PURL, ARK) para que sean localizables aunque la url cambie. 

El registro re3data recopila los repositorios de datos existentes clasificados por disciplinas, tipo de datos, licencia de uso, área geográfica, y otros criterios.

Logotipo del registro de repositorios de datos re3data

La revista Scientific Data, de Nature, recomienda algunos repositorios por temática y tipo de datos.

Bibliografía


Para elaborar esta guía se han utilizado las siguientes fuentes:

Document