No son pocos los relatos de ciencia ficción en los que vemos máquinas y robots capaces de comunicarse con los seres humanos de manera natural, mediante la voz. Algunos nos preguntamos si eso es posible y, en tal caso, cómo podremos lograr que las máquinas nos entiendan y sean además capaces de comunicarse entre sí.
Desde los inicios de los ordenadores han existido protocolos —creados por el ser humano a través de diferentes lenguajes de programación— para que las máquinas se puedan entender entre sí: MQTT, TCP, etc. Estos “idiomas” son obra nuestra, pero su existencia puede suscitar una duda: si las máquinas fueran capaces de establecer una comunicación “natural”, ¿qué tipo de lenguaje utilizarían?
El primer intento de responder a esta pregunta llegó de la mano de Facebook en 2017. Para ello, los técnicos de la compañía se sirvieron de dos chatbots, unas máquinas capaces de comunicarse con el ser humano a través de texto escrito en inglés, y de adaptar la comunicación según el interlocutor, y atendiendo a la intención de este y a las capacidades del sistema.
A estos chatbots, completamente autónomos entre sí, se les dio libre albedrío para que se comunicaran entre ellos.
El procesamiento del lenguaje agilizará muchas de nuestras actividades y dará lugar al surgimiento de nuevas aplicaciones
El resultado fue asombroso, aunque también, en cierto modo, escalofriante. Empezaron con una conversación normal. Sin embargo, poco a poco fueron desarrollando su propio código de comunicación. Teniendo en cuenta que no se sabía exactamente qué comportamiento adoptarían esas máquinas en un futuro, y ante la incapacidad de entender el lenguaje que estaban empezando a utilizar y qué se estaban comunicando exactamente, se decidió apagar ambos programas y dar por finalizada la prueba.
Un lenguaje vivo
Este campo resulta fascinante, ya que demuestra que las máquinas son capaces de adentrarse en nuevos caminos que un ser humano no hubiera llegado a explorar, y al hacerlo plantean casuísticas que no se contemplarían en primera instancia. En muchas de estas, las que se han podido estudiar, se hace evidente cómo las máquinas generan un lenguaje a partir de una colección de palabras (corpus).
Las máquinas son capaces de adentrarse en nuevos caminos que un ser humano no hubiera llegado a explorar
El punto más llamativo es que, según la teoría de la comunicación, el lenguaje se concibe como algo vivo que se desarrolla en función de sus hablantes. Esto es lo que explica la evolución de muchas lenguas a partir de un idioma madre o troncal, o la existencia de variantes de un mismo idioma en diversas regiones.
En este caso, en síntesis, las máquinas, que disponen de un léxico limitado, lo adaptan aplicando el principio de economía del lenguaje. Consiste en ser capaz de transmitir un concepto con el menor número posible de palabras y fonemas. Lo que se observa es que en las máquinas estos patrones de aprendizaje son muy veloces, y que las tendencias que utilizan se basan en maximizar la eficiencia del lenguaje mediante patrones de repeticiones o cambios de orden de las palabras.
Entender el lenguaje humano
El procesamiento del lenguaje natural o NLP (natural language processing, por sus siglas en inglés) es el campo que se encarga del estudio y desarrollo de este tipo de sistemas. Para ello, utiliza modelos de análisis matemático e inteligencia artificial aplicados a la teoría del lenguaje.
Otra parte importante del “idioma” de las máquinas es cómo estas son capaces de entender el nuestro y asignar una serie de acciones o respuestas dependiendo de la entrada que se produzca. Esto se puede ver hoy en herramientas de uso cotidiano, como los asistentes de voz. Estos sistemas, cada vez más habituales en los hogares o los móviles —por ejemplo, Hey Google, Alexa (Amazon), Cortana (Microsoft) o Siri (Apple)— utilizan el procesamiento y comprensión del lenguaje natural. Para que las máquinas sean capaces de interpretar este lenguaje, lo someten a un primer proceso de deconstrucción
y análisis.
En esta primera instancia, el sistema hace un preprocesado de la señal de audio hablada: la divide por segmentos, retira parte del ruido y, en algunos casos, convierte esta información en texto. En segundo lugar, se extraen entidades dentro del texto, que pueden representar intenciones o acciones, o dar una pista sobre la emoción del interlocutor.
Completados todos estos procesos, la máquina es capaz de asignar cada una de estas entidades a un diccionario que tiene integrado el sistema, en el que se aplican los pasos que se ilustran en la siguiente figura.
Todas estas capacidades de análisis del lenguaje natural se ven extendidas en sistemas como DALL-E, donde convergen las posibilidades de generación de imágenes sintéticas, con inteligencia artificial, con el análisis del lenguaje natural que se detalla previamente con el funcionamiento de los asistentes de voz. Evidentemente, este sistema requiere una serie de pasos para comunicar estas entidades detectadas en el texto con el sistema de generación de imágenes; para ello se sirve de redes neuronales intermedias.
Con respecto a los avances que suponen estas máquinas, IBM ha presentado un sistema denominado Soapbox Debater, capaz de entablar debates con una persona física, y de ganar contra interlocutores humanos de nivel aficionado. Para ello, se le proporciona el tema sobre el que debe debatir e información acerca de cómo está estructurado el debate en cuanto a orden de turnos. También se le suministran especificaciones relativas a la documentación necesaria para el debate o asociada con él. Se marca una ruta, siguiendo el orden de: 1) dar una premisa del argumento; 2) encontrar pruebas que lo ratifiquen en la documentación; 3) organizar el discurso según el del contrario; y, finalmente, 4) dar una conclusión de cierre.
En palabras de Noam Slonim, uno de los principales desarrolladores de este proyecto: “Es un sistema delicado al cual se ha llegado a través de una prueba de concepto de varios años. Hemos tenido que decidir cuál es el límite que fijamos sobre el propio sistema, ya que algunas capacidades lingüísticas desarrolladas por las máquinas son abrumadoras”.
Conclusión
Como conclusión podemos decir que resulta evidente que las capacidades que ofrecen las máquinas en el campo del procesamiento del lenguaje no tienen precedentes: agilizarán enormemente muchas de nuestras actividades diarias y darán lugar al surgimiento de nuevas aplicaciones.