Ingeniería de Datos, Integración Semántica de Datos y Grafos de Conocimiento
Ciencia e Ingeniería de Datos son dos aspectos del proceso del Big Data Analytics. El trabajo de un científico de datos es hacer las preguntas correctas en cualquier conjunto de datos dado (ya sea grande o pequeño). El ingeniero de datos recopila y recoge los datos, los almacena, procesa por lotes o procesa en tiempo real, y los sirve a través de una API a un científico de datos que puede consultarlo fácilmente. Dependiendo del problema de análisis de datos, es necesario decidir que tecnología se adapta mejor entre las disponibles: bases de datos relacionales (MySQL, Oracle, PostGreSQL, mariaDB, …), bases de datos NoSQL (mongoDB, Cassandra, Hive, HBASE, Neo4j, …), bases de datos RDF (D2R Server, OpenLink Virtuoso), etc.
El uso masivo de las tecnologías del Big Data y la alta tasa de cancelación de proyectos como consecuencia de no haber considerado de forma realista la disponibilidad de los datos implicados en el análisis y los costes de adquisición y preparación de estos datos y de almacenamiento, gestión y tratamiento después (en su conjunto mucho más del 80% de los costes del proyecto) ha puesto en valor este perfil.
Entre las capacidades de ingeniería de datos se deben incluir no sólo la gestión de los datos, sino también la integración de datos procedentes de fuentes dispersas. Con el término datos vinculados (Linked Data en inglés) nos referimos a conjuntos de datos estructurados, interconectados y semánticamente integrados que se distribuyen en diferentes repositorios y que están descritos en un formato común (RDF). Estas tecnologías son la base para la integración de datos, con especial relevancia en dominios complejos como las e-Ciencia. Disponemos de amplia experiencia en la integración de datos (con muy alta calidad) tanto a partir de bases de datos como integrando datos de fuentes heterogéneas.
Los grafos de conocimiento permiten a las aplicaciones acceder a información relevante. Se trata de un conocimiento organizado de tal manera que una máquina puede entenderlo y extraer información fácilmente. Desde el punto de vista técnico, se trata de teoría de grafos: vértices, aristas y atributos. Por lo que RDF/OWL2 se plantean como el principal modelo de datos en este contexto.
Las ontologías o grafos de conocimiento, normalmente definidas mediante el lenguaje OWL2, ofrecen vocabularios para estructurar el conocimiento del dominio de dichos datos RDF. El éxito de los datos vinculados se refleja en la inmensa cantidad de datos disponibles en la web de los datos como conjuntos de datos RDF, que constituyen la mayor fuente de datos estructurados que ha construido jamás la humanidad. Además, este entorno constituye un área muy prometedora para el razonamiento formal. Nuestro objetivo es desarrollar técnicas de razonamiento altamente escalable, basadas en algoritmos paralelos y distribuidos que permitan razonar sobre datos vinculados en la práctica. Estas técnicas deben ser incrementales para permitir el razonamiento en tiempo real. Se estudiará por tanto el uso de tecnologías del Big Data para la implementación de dichas técnicas.
El alineamiento de ontologías consiste en descubrir el conjunto de correspondencias semánticas (mappings) entre las entidades de dos o más grafos de conocimiento que, aunque pertenecen a un mismo dominio, se ha desarrollado de manera separada. En este sentido, mantenemos abierta una línea se centra en el desarrollo de técnicas y herramientas que den soporte al descubrimiento de relaciones semánticas entre ontologías.