El mercado de la inteligencia artificial (especialmente en lo relativo a la IA generativa) está cambiando rápidamente. No obstante, el denominador constante y común son los datos, y estos seguirán siendo la fuente que permita el éxito de cualquier LLM (large language model) o modelo de IA. Las empresas que se quieran subir a esta ola deberán empezar por el principio: reunir datos empresariales de calidad y confiar en ellos.

Juan Carlos Sánchez de la FuenteLa revolución de los modelos de lenguaje de gran tamaño, LLM por sus siglas en inglés, es ya una realidad. El éxito inmediato de ChatGPT es prueba de ello. Y es que el popular chatbot de OpenAI alcanzó, según UBS, los 100 millones de usuarios activos mensuales en tan solo dos meses desde su lanzamiento, una cifra que lo convierte en la aplicación de consumo de mayor crecimiento de la historia.

Ante este escenario, cabe plantearse cómo van a adoptarse los LLM en el ámbito de las organizaciones públicas y de las empresas privadas, y, sobre todo, cómo estas tecnologías van a transformar las industrias y la forma de trabajar.

En esta vorágine de incertidumbre es necesario abordar la cuestión de si todas las empresas pueden beneficiarse de la IA generativa. Para dar respuesta, hay que irse a las neuronas del modelo: los datos. Las organizaciones únicamente podrán adoptar soluciones de IA en las que puedan confiar si tienen previamente confianza en los datos, para lo cual es imprescindible que estos sean de calidad.

El éxito de la IA generativa y de los LLM asociados depende de la calidad y fiabilidad de los datos de entrenamiento

El éxito se basa en un principio muy básico: los modelos lingüísticos serán tan buenos como los datos con los que han sido entrenados. Las empresas necesitan asegurarse de que las respuestas se basan en los datos de la compañía, evitando las denominadas extrañas o “alucinadas”, debidas a la falta de contexto y a fuentes de datos no validadas. Por supuesto, estas respuestas no deben comprometer la conformidad de los datos ni la propiedad intelectual.

IA generativa y privacidad

Es una realidad: la privacidad de los datos es una preocupación crítica para todas las empresas, ya que tanto las personas como las organizaciones se enfrentan al desafío de salvaguardar los datos personales —de los clientes y también los de la propia empresa—, un reto que se complica cada vez que surgen nuevas tecnologías e innovaciones que se alimentan de esta información.

Las aplicaciones SaaS de IA generativa como ChatGPT son un ejemplo perfecto de los avances tecnológicos que exponen a individuos y organizaciones a riesgos de privacidad. Esas aplicaciones de terceros pueden almacenar y procesar información confidencial de la empresa, que podría quedar expuesta en caso de una violación de datos o de un acceso no autorizado.

Las limitaciones de los LLM

Los modelos LLM se enfrentan al gran desafío de dar respuesta a cuestiones específicas sobre una organización. Estos modelos normalmente se basan en grandes cantidades de texto disponibles en Internet, que comprenden una gran variedad de temas.

Sin embargo, si se les hace una pregunta concreta sobre una empresa, estos responden, o bien con alucinaciones, o bien con informaciones descontextualizadas que nada tienen que ver con el interés del usuario que formula la pregunta.

En primer lugar, estas alucinaciones hacen referencia a una práctica desaconsejada a la que suelen recurrir estos modelos de lenguaje: generar información ficticia, pero redactada de forma verosímil. Nos encontramos ante una característica que puede generar problemas a la hora de discernir si se trata de información veraz o no.

Los datos son las verdaderas neuronasEn cuanto a las respuestas fuera de contexto, como su nombre bien indica, hacen referencia a las informaciones que proporciona el LLM de manera genérica, pero no adaptada a la situación específica por la que se le ha preguntado. Es decir, por poner un ejemplo, si se le pregunta por el precio de CDP (Cloudera Data Platform), el modelo de lenguaje no puede proporcionar dicha información, ya que no tiene acceso a las tarifas de costes.

No obstante, sí que dará una respuesta, que se basará en las tarifas de un CDP, pero referido a un customer data platform.

En este sentido, la respuesta será objetiva, pero estará fuera de contexto. Por supuesto, en un entorno empresarial, estas respuestas ambiguas e incoherentes, desinformación de hecho, son inaceptables. Para las empresas, el éxito de la IA generativa y de los LLM asociados depende de la calidad de los datos de entrenamiento y de la confianza que ofrezcan.

El chatbot de las organizaciones

Pero volvamos al quid de la cuestión: ¿cómo pueden las organizaciones superar estas barreras para aprovechar todo el potencial de los LLM? Lo fundamental para alcanzar el éxito es tener la capacidad de explicar cómo se ha generado el modelo, cuál es la calidad de los datos utilizados para entrenarlo y de dónde proceden dichos datos.

Desde Cloudera estamos facilitando el desarrollo de la IA generativa dentro de las organizaciones gracias a un nuevo Chatbot LLM impulsado con datos empresariales, una iniciativa que ha sido posible gracias a la experiencia de Cloudera a la hora de obtener valor de los datos de sus clientes.

Aunque las herramientas de IA disponibles actualmente pueden ser atractivas, resultan problemáticas para las compañías: si estas quisieran desarrollar sus experiencias interactivas utilizando los datos de los que son propietarias, tendrían que compartirlos con servicios externos.

Con nuestra solución, las empresas pueden construir su propia aplicación de IA eligiendo el LLM de código abierto que prefieran para utilizar sus datos, todo alojado internamente en la empresa. Esto beneficia no solo a los científicos de datos y expertos en machine learning, sino también a todos los desarrolladores y a las unidades de negocio, democratizando verdaderamente la IA.

Las organizaciones únicamente podrán adoptar soluciones de IA en las que puedan confiar si tienen previamente datos de calidad

Este modelo para la IA generativa propone una solución que permitirá crear internamente una versión de GPT y modelos básicos, en lugar de entrenar datos en complementos de API públicos. De esta manera, las empresas pueden crear aplicaciones de IA impulsadas por cualquier LLM de código abierto utilizando datos propietarios, todos alojados internamente en la empresa.

Los prototipos de aprendizaje automático aplicados o AMP (por sus siglas en inglés, applied machine learning prototypes) son gratuitos en la nube pública y privada de Cloudera Data Platform (CDP).

Al aprovechar las tecnologías de código abierto, los desarrolladores pueden ajustar los modelos de lenguaje con datos específicos de la empresa, mejorando así la calidad de la respuesta a través del desarrollo de la comprensión específica de la tarea. Esto permite que el modelo comprenda las consultas de los usuarios, proporcione mejores respuestas y maneje hábilmente los matices del lenguaje específico de quien formula la pregunta.

Al integrar una base de datos de conocimiento, los LLM pueden acceder a información específica durante el proceso de generación. Esta integración permite que el modelo proporcione respuestas que no solo se basan en el lenguaje, sino también en el contexto de su propia base de conocimientos.