Los modelos de lenguaje son la base del PLN (procesamiento del lenguaje natural) moderno y se aplican cada vez en más sectores, como por ejemplo el legaltech. Mapa del Expediente es una herramienta con la que hemos proporcionado al despacho de abogados Garrigues una solución para optimizar su trabajo, además de para organizar y clasificar expedientes judiciales de forma automática.
Clasificar automáticamente los documentos asociados a un caso judicial, y encontrar y relacionar, por ejemplo, a las personas involucradas en él entre grandes cantidades de información, es posible gracias a la inteligencia artificial (IA)
En la última edición de Big Things Conference, organizada por Paradigma, tuvimos ocasión de mostrar cómo funciona Mapa del Expediente. Se trata de una herramienta desarrollada junto al despacho de abogados Garrigues y pensada para procesar automáticamente expedientes judiciales de gran volumen. Se basa en técnicas de procesamiento del lenguaje natural (PLN), aunque tomando como base un modelo que se ha entrenado específicamente para ajustarse al utilizado en el ámbito jurídico, y que hemos desarrollado con una metodología propia del Instituto de Ingienería del Conocimiento (IIC).
A través de esta herramienta, el mundo del derecho ha encontrado un modo de reducir el tiempo que sus profesionales pasan entre grandes volúmenes de información para localizar datos relevantes para su trabajo.
Expedientes judiciales
Si nos centramos en la colaboración con Garrigues, el objetivo era desarrollar un sistema capaz de organizar, catalogar y mapear de forma automática la documentación asociada a un expediente judicial. Por ello, Mapa del Expediente cuenta con tres funciones principales: clasificar los documentos del caso en categorías, identificar en ellos las entidades relevantes —personas y organizaciones implicadas— y visualizarlo todo de forma gráfica.
Tras definir el objetivo del proyecto, y una vez que ya estaba en marcha, nos encontramos con diferentes retos que hubo que ir resolviendo a través de diferentes técnicas y tareas de PLN. Por ejemplo, tuvimos que decidir cómo transcribir los archivos digitalizados, desarrollar una solución para separar grupos de documentos que se presentaban unidos en un mismo fichero PDF, plantear estrategias para descartar páginas no informativas, o definir las categorías en las que el sistema iba a clasificarlos.
El PLN ofrece al mundo del derecho un modo de reducir el tiempo que sus profesionales pasan entre grandes volúmenes de texto
Una vez elegidas las categorías, hubo también que dedicar tiempo al diseño del corpus de entrenamiento, teniendo en cuenta además los documentos sin etiquetar. En esta fase resultó fundamental la colaboración entre nuestro equipo de lingüistas computacionales y los abogados de Garrigues. Para realizar este entrenamiento dispusimos de seis casos judiciales, con un total de 1375 archivos PDF y 79,6 GB de datos.
Al concluir el proceso, el sistema permite a los usuarios consultar rápidamente la información que puedan necesitar del expediente. Por un lado, pueden localizar documentos concretos, pero también identificar a personas o empresas que aparecen mencionadas en ellos, así como establecer una red de relaciones entre los archivos y estas entidades. Además, la visualización en forma de grafo es útil para resumir esa información de un vistazo, conformando un auténtico mapa para navegar por el expediente.
El objetivo es que los juristas puedan delegar el trabajo de organizar y estructurar la información en un sistema automático, para así dedicar su tiempo a tareas de mayor valor. Proyectos como Mapa del Expediente demuestran que es posible que la forma de hacer las cosas evolucione, tanto en este ámbito como en otros.
La IA y los documentos legales
Otra de las características de Mapa del Expediente es que integra el primer modelo de lenguaje en español adaptado a este campo de actividad. Lo desarrollamos a partir de una metodología propia del IIC que permite ajustar los modelos generales disponibles a diferentes dominios del lenguaje, como la jerga y la terminología específicas del derecho.
Actualmente, modelos como GPT-3 o BERT ya se utilizan como base para automatizar tareas concretas de PLN, ya sea la clasificación de textos o la traducción automática, entrenándolos con un corpus que refleje la tarea objetivo. No obstante, estos modelos pueden no funcionar tan eficazmente cuando se encuentran con los términos empleados en sectores especializados, como el médico, el financiero o el jurídico. De ahí la importancia de añadir otro paso más en ese reajuste del modelo: la adaptación al dominio, además de a la tarea concreta.
Para ello se necesita un corpus específico del ámbito de aplicación. En este caso, partimos del modelo de lenguaje de la Universidad de Chile, denominado BETO, que reentrenamos con un gran corpus legal y administrativo de más de quinientos millones de palabras. Los textos fueron recopilados de fuentes abiertas y curados por el equipo de lingüistas computacionales del IIC para garantizar su calidad.
El Mapa del Expediente integra el primer modelo de lenguaje en español adaptado a este campo de actividad del ámbito jurídico
En una segunda fase de adaptación, en colaboración con Garrigues, se utilizaron datos de expedientes recopilados por el despacho de abogados para generar una versión todavía más específica del modelo de lenguaje, bautizada como Garrigues-BETO, y que se incorpora al sistema Mapa del Expediente.
Tras esta adaptación en dos pasos, el modelo se probó con las dos tareas principales de la herramienta: la clasificación de textos y la detección de entidades. En ambas ofreció mejores resultados que las más recientes innovaciones en modelos de lenguaje en español.
Esa metodología para la adaptación al ámbito jurídico fue uno de los primeros logros de nuestro trabajo en modelos de lenguaje en español, pero perseguíamos uno mayor: el lanzamiento de nuestro propio modelo.
Tras dos años de investigación se hizo pública la versión 1.0 de RigoBERTa, un modelo de lenguaje en español con mejoras en cuanto a datos, hardware y arquitectura, y que incluía además la posibilidad de adaptarse a diferentes dominios. Nos fijamos en la arquitectura de DeBERTa, el actual modelo de lenguaje de referencia de Microsoft, y lo entrenamos con cuatro fuentes de datos en nuestro idioma, que suponen más de 450 000 millones de palabras.
Desde luego, queda mucho camino en el campo del PLN y los modelos de lenguaje, pero, sin duda, estamos asistiendo a una revolución que se centra cada vez más en buscar la utilidad real de los sistemas que desarrollamos.