¿Qué tienen en común una prospección petrolífera en aguas profundas y la mejor comprensión y escritura del idioma castellano? Pues que en ambos casos se usan la inteligencia artificial y el big data para procesar rápidamente un ingente y variopinto volumen de datos.

El BSC-CNS (Barcelona Super Computing Center – Centro Nacional de Supercomputación) cuenta con un superordenador IBM, llamado MareNostrum, ubicado en una preciosa capilla de la UPC (Universidad Politécnica de Cataluña). A fecha de este artículo, ocupa el puesto 42 de los ordenadores más potentes del planeta —lista Top500— y el 14 de Europa. Dispone de una potencia de cálculo superior a 1,5 petaflops (1,5 × 1015 operaciones por segundo).

El Proyecto Caleidoscopio fue un revulsivo para la exploración en zonas de muy compleja geología

Hace diez años, la multinacional energética española Repsol y el BSC-CNS llegaron a un acuerdo de colaboración para procesar datos sísmicos, necesarios para las prospecciones petrolíferas. Así nació el Proyecto Caleidoscopio, un revulsivo tecnológico para la exploración en zonas de muy compleja geología y con grandes reservas de gas y petróleo, como el golfo de México o las aguas profundas de Brasil. Tratar de visualizar el subsuelo más allá y mejor que su competencia, antes de realizar las costosísimas perforaciones, era y es un reto. La recompensa: un ahorro significativo de costes, que, además, se logra al mismo tiempo que se protege el entorno al evitar sondeos innecesarios en lugares no aptos.

Por regla general, por muy afinado que sea el volumen de datos obtenido en una campaña sísmica, en numerosas ocasiones la geología del subsuelo ofrece una imagen borrosa y distorsionada. Gracias a los algoritmos de Caleidoscopio, Repsol procesó quince veces mejor esos datos. Las tasas de acierto superaron a las del resto de las compañías petroleras, algo por lo que la energética española recibió numerosos galardones a nivel nacional e internacional.

Esta base servirá para analizar la lengua y comprender mejor nuestra actual sociedad digital

Por otra parte, la BNE (Biblioteca Nacional de España) está llevando a cabo —con el mismo superordenador MareNostrum, dentro del Plan de Tecnologías del Lenguaje— el proyecto MarIA. Desarrollado en código abierto, para que cualquiera pueda usarlo sin coste, su utilidad va desde los correctores y predictores del lenguaje hasta las aplicaciones que elaboran resúmenes automáticos, los chatbots (conversaciones mediante respuestas automáticas que aprenden por sí solas), las búsquedas inteligentes, los motores de traducción y la subtitulación automática.

Proyecto MarIA

MarIA, según la propia BNE, es un conjunto de modelos del lenguaje o de redes neuronales que han sido entrenados para adquirir una comprensión de la lengua, su léxico y los mecanismos para expresar el significado y escribir a nivel experto. Logra entender no solo conceptos abstractos, sino también el contexto.

Tengamos en cuenta que la BNE ingresa cada año más de medio millón de ejemplares físicos (más de 1300 libros, periódicos, revistas, fotos, mapas… cada día) y 70 terabytes en su Depósito Legal Electrónico y Archivo Digital. Para “alimentar” a MarIA se utilizaron 59 terabytes del archivo web de la BNE. Posteriormente, estos archivos se procesaron para eliminar números de página, gráficos, oraciones que no terminan o duplicadas, codificaciones erróneas, palabras en otros idiomas, etc. Se guardaron solo textos bien formados en la lengua española, tal y como hoy la usamos. Tras el cribado y su posterior compilación, los resultados fueron 570 gigabytes de texto limpio y sin duplicidades. ¡Menos del 1% de los datos iniciales! No insistiré nunca lo suficiente en la importancia de la calidad y veracidad del dato frente a la cantidad.

Con este proyecto se trata de disponer de una base que servirá para analizar la lengua y comprender mejor nuestra actual sociedad digital.

Para “alimentar” a MarIA se utilizaron 59 terabytes del archivo web de la BNE

¿Puede la IA sustituir a un geofísico? De momento no. ¿Puede copiar, reproducir o suplantar a un escritor profesional? Eso fue lo que le preguntó Chema Alonso, CDCO de Telefónica —Proyecto Maquet— al escritor y académico Arturo Pérez-Reverte, junto al que creó, empleando IA, un nuevo pasaje de su conocida serie de novelas del capitán Alatriste. Por el momento, el texto cibernético y el humano eran diferenciables.

¿Pero hasta cuándo será así? Esta aplicación llegará mucho antes a los desempeños técnicos y científicos, donde hay que tomar decisiones a partir de datos (como la búsqueda de hidrocarburos), pues la experiencia acumulada por la IA y los históricos almacenados de otras perforaciones permitirán afinar mejor la prospección. En el caso de trabajos con una carga más emocional y creativa, más anímica y personal, será más complejo. ¡Por ahora!