Lifewatch-3

La Plataforma de Preservación Open Science de ESFRI LIFEWATCH desplegada en la Reserva Biológica de Doñana

Muchas veces en el pasado hemos destacado la importancia que tienen los datos abiertos a la hora de cumplir con las estrategias planteadas por la Unión Europea para la consecución de los objetivos previstos para el año 2020. Hoy nos centramos en la labor que tienen los datos abiertos para la investigación dentro de Europa, y más concretamente, en la ICTS de la reserva Biológica de Doñana, una infraestructura para la investigación del ecosistema y la biodiversidad cuya sede central está afincada en Sevilla.

La importancia de los datos abiertos queda fuera de toda duda y resulta una herramienta esencial para el desarrollo y el progreso en general. Particularmente, dentro del terreno de la investigación se están haciendo grandes avances gracias a las políticas Open, dando lugar a mayores sinergias en un periodo de tiempo menor.

Antes de entrar en materia, hace falta conocer de manera somera cuál es el contexto en el que tienen lugar estas aplicaciones y las infraestructuras e iniciativas que tienen un papel importante dentro de este circuito.

EGI – European Gride Infraestructure

Logo del EGI

EGI es la Infraestructura Europea en Malla, en referencia a las técnicas de computación en malla (grid computing) que utilizan para realizar su trabajo. Su objetivo principal es facilitar el acceso a recursos computacionales a través de una red de centros interconectados en varios países de la Unión Europea. De esta forma se facilita y potencia la colaboración científica internacional.

Esta federación alberga a dos tipos de grupos dentro de su seno: Organizaciones que representan e-Estructuras nacionales (NGIs) y Organizaciones de Investigación Europea Intergubernamentales (EIROS).

EGI ofrece una amplia gama de servicios a sus socios, que van desde la consultoría de soporte hasta marketing, pero su principal función es la creación de puntos de acceso único para todos sus investigadores. De esta forma, lo que se consigue es homogeneizar las fuentes de software y evitar que se produzcan duplicaciones.

El funcionamiento de esta plataforma internacional es idéntico en las organizaciones correspondientes a cada país. En el caso de España, ES-NGI es un entorno colaborativo para que los investigadores españoles desarrollen su trabajo de manera conjunta.

ESFRI – European Strategy Forum Research Infrastructures

Logo del ESFRI

ESFRI son las siglas del Foro Estratégico Europeo sobre Infraestructuras de Investigación. Se trata de un instrumento estratégico para desarrollar la integración científica de Europa y reforzar su alcance internacional.

El propósito de esta institución, además de dar soporte a la comunidad científica, es que la planificación se enmarque dentro de los objetivos estratégicos marcados por la Unión Europea. Así se consigue la satisfacción de las necesidades de los ciudadanos.

Cada año, ESFRI publica una hoja de ruta en la que resume los resultados alcanzados y dar una visión general del estado de los proyectos. En su última hoja de ruta publicada (2018), hay un total de 18 proyectos en marcha, divididos en cinco categorías diferentes: energía, medio ambiente, salud y alimentación, ciencias físicas e ingeniería e innovación cultural y social.

En el último año, ESFRI modificó y refinó las definiciones, modelos y métodos, por lo que la metodología actual queda así: desarrollo de concepto, diseño, preparación, implementación, operación y conclusión.

Lifewatch, la unión de la ciencia y los datos abiertos

Dentro de esta lista de proyectos que figura en el reporte anual, cabe destacar LifeWatch ERIC, nombre en clave de la infraestructura electrónica para la investigación de la biodiversidad y de los ecosistemas.

Lifewatch es un consorcio de infraestructuras europeas liderado por España (su base central se encuentra en Sevilla) y en la que participan los siguientes: Bélgica, Eslovenia Grecia, Italia, Holanda y Portugal y Eslovaquia como país observador.

Con este proyecto se pretende acabar con las limitaciones que afectan a la investigación científica y cubrir la necesidad de contar con una mayor cantidad de datos y más variados. Para alcanzar estos propósitos se utilizan herramientas como el análisis del Big Data, los recursos semánticos y también open y FAIR data.

FAIR data es un acrónimo en inglés formado por “findable” (que se puede encontrar), “accesible”, “interoperable” y “reusable”. Este acrónimo forma la palabra “fair”, “justo” en inglés.

Aunque son conceptos muy similares, no son exactamente iguales, ya que fair data (“datos justos”) no tienen por qué ser necesariamente abiertos. Su aspecto principal es que deben ser accesibles y esto puede significar que sean accesibles para un grupo concreto o por cualquier persona (en este caso, serían abiertos).

Por ejemplo, un proceso habitual de los datos experimentales es que comienzan siendo accesibles únicamente por un grupo de personas que está trabajando con ellos. Luego pasa por las manos de más gente que ayudan a refinar el conjunto y, finalmente, en el caso de que así se haya decidido, se hacen accesibles a todo el mundo y se convierten en open data.

Al funcionar en varios países de la Unión Europea, con España como centro coordinador, se pueden realizar acciones en ámbitos locales no circunscritas a un único país, ofreciendo una visión más amplia del continente.

La importancia de los datos abiertos en la investigación

Tal y como venimos señalando a lo largo del artículo, los datos abiertos son un eje central para el desarrollo de este tipo de proyectos como Lifewatch, ya que permiten compartir información con otros investigadores y crear una verdadera comunidad científica que se retroalimenta entre sí. Éstas son las ventajas que ofrecen los datos abiertos:

  • Aumentan las oportunidades de sinergias, de forma que se unen esfuerzos para alcanzar los objetivos en menor tiempo.
  • Se evita que se dupliquen proyectos o líneas de investigación, ya que se conoce en qué están trabajando los compañeros al instante, da igual que se encuentren en otro país.
  • Se reduce el uso de información que puede ser errónea o estar obsoleta.
  • Se fomenta y potencia la colaboración entre investigadores, sin importar en el centro de investigación que se encuentren.
  • En definitiva, se optimizan los recursos para obtener unos resultados de una forma más eficiente que antes.

El camino para alcanzar esta utilización de los datos abiertos en la investigación ha necesitado de algunos pasos previos, que pasamos a detallar:

  • Desarrollo de unos estándares internacionales comunes, ya que, sin ellos, la colaboración entre la comunidad sería imposible al tratar los datos de forma heterogénea y no unificada.
  • Realizar inversiones públicas para ofrecer a las universidades y grupos de investigación las infraestructuras y herramientas necesarias para trabajar en común y aprovechar el potencial de los datos abiertos apropiadamente.
  • Fomentar la solidaridad entre los diferentes grupos de investigadores, superando ese miedo a compartir los resultados de sus trabajos propios.

Plataforma de Preservación Open Data

Teniendo en cuenta todos estos aspectos anteriormente descritos, se decidió crear la Plataforma de Preservación Open Data ICTS-RBD para que el investigador tuviera la capacidad de gestionar el ciclo completo de vida de los datos, en el que ahora vamos a profundizar.

El ciclo de vida del dato se refiere a todas las fases por las que pasan los mismos, desde su planificación hasta su consumo por terceros. Por eso hay que conocer cada una de las etapas para ofrecer un soporte específico.

  • Planificación de la gestión del dato.
  • Adquisición del dato, ya sea a través de sensores o de repositorios externos.
  • Almacenamiento del dato.
  • Recuperación del dato almacenado en fuentes heterogéneas.
  • Publicación del dato en portales open data siguiendo los estándares establecidos.
  • Consumo del dato.
  • Preservación del dato.

Originalmente, la Plataforma de Preservación de Open Data contaba con seis módulos, con lo cual se necesitaban implementar dos más para que quedase completa: autenticación y autorización. De esta forma, la estructura final de la plataforma quedó así: planificación, adquisición, portal open data, consumo, preservación, almacenamiento, autenticación y autorización.

Éstas son las soluciones que se utilizaron para cada una de las fases del ciclo:

  • Planificación: Solución basada en DMPTool y extendida para permitir el uso de ontologías (y añadir semántica a los DMP), integración de metadatos asociados, etc.
  • Adquisición: Soluciones Python para la monitorización y control remoto de sensores, módulos de calibración, conexión con datos definidos (existentes en repositorios externos o disponibles en repositorios remotos), etcétera.
  • Almacenamiento y recuperación: Solución que permite obtener la información desde fuentes heterogéneas de una forma centralizada y común, partiendo de OneData.
  • Publicación: Portal basado en Invenio, permitiendo la explotación como datos abiertos, y asignando un DOI (Identificador de Objeto Digital) para cada dataset.
  • Consumo: Explotación de entornos de desarrollo para investigadores basados en Jupyter Notebook.
  • Preservación: Herramientas Open Source como Bacula sobre soportes físicos (discos, SAN/NAS, cintas, etc.).

Lo que inicialmente iba a ser un portal de datos abiertos terminó siendo una Plataforma de Open Science, que funcionaba como elemento coordinador y punto de entrada a los otros módulos restantes.

Este proyecto se dio por terminado en noviembre de 2015 y fue desplegado en la Instalación Científica y Tecnológica Singular de la Reserva Biológica de Doñana (ICTS-RBD), a disposición de la red de investigación de ESFRI-Lifewatch.

Dentro de este proyecto liderado por Telefónica, Viafirma desarrolló cinco módulos de la plataforma, colaborando con Adevice, quien se encargó del módulo de adquisición del dato, y con Aeonium, naciente empresa de base tecnológica, encargada de desarrollar la Plataforma Open Science.

Compartir entrada

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email