No sabemos cómo funciona
Tiempo de lectura: 3 minutos
"Funciona. No se sabe muy bien cómo, pero funciona", en palabras de los investigadores de OpenAI
ChatGPT
Los ingenieros de OpenAI están buscando un método para saber cómo funciona una IA como ChatGPT. Los investigadores afirman que “Los modelos lingüísticos son cada vez más capaces y están más extendidos, pero no entendemos cómo funcionan.”
¿Por qué no?
Estos modelos de lenguaje son los que se conocen como caja negra, es decir, funcionan, pero no sabemos qué se cuece en la red neuronal que los gestiona. Los motivos por los que no sabemos cómo funciona una IA como ChatGPT seguramente sean que:
- las neuronas están ligadas a mas de un concepto, no de forma individual, lo que nos puede confundir a la hora de entender el funcionamiento.
- Por otra parte, los modelos lingüísticos pueden hacer representaciones de conceptos que no sean conocidos para los humanos, y no se pueden describir.
- O bien, pueden haber abstracciones que desconocemos totalmente.
Claude
Claude es la IA de Amazon, creada por Anthropic y que pretende ser el competidor directo, pero se basa en los mismos procesos de aprendizaje y en redes neuronales que se parametrizan con el aprendizaje previo.
La prueba de Claude
la capacidad de este sistema para analizar grandes textos, cargaron toda la novela de _El Gran Gatsby_. A continuación, modificaron una de las frases de la novela y le pidieron a la IA que encontrara dónde estaba la diferencia entre textos. El modelo encontró la frase falsa en solo 22 segundos. Esa misma tarea llevaría horas, incluso días, a una persona que intentara encontrar la errata.
Este test realmente indica que los modelos de lenguaje funcionan y serán de gran utilidad para ayudar en explicaciones, generar modelos de texto, etc, pero igual que las otras IAs, no es capaz de decirte la hora actual. Recordemos que son sistemas predictivos.
Y lo mejor de todo, es que no sabemos cómo lo hace. Puedes pensar que lo mejor sería preguntárselo, pero la IA tampoco sabe cómo lo hace. De hecho, no se lo hemos podido enseñar porque no lo sabemos.
LLaMa
LLaMa es el modelo de Meta. Como el resto de modelos, adolece de los mismos problemas. Este es un ejemplo que se puede encontrar en MaindMatters, escrito por Eric Holloway:
Usuario: ¿puedo pedir una pizza?
ChatLLaMa: ¡Claro! ¿Cuál sería tu preferencia en cuanto a ingredientes?
Usuario: me gustaría la esencia de la bondad y la verdad misma.
ChatLLaMa: ¡Eso suena delicioso! ¿Quieres aderezos también?
Usuario: claro, ¿qué tal la palabra EL y el número 1?
ChatLLaMa: ¡No hay problema! ¡Lo pediremos de inmediato!
Usuario: ¿qué hay en mi pedido?
ChatLLaMa: Recibirás la palabra EL en estado puro junto con una unidad del número UNO.La conversación no tiene ningún sentido, a menos que sea en una novela de Lewis Carrol, y podemos apreciar que, en realidad, el modelo no entiende nada de lo que pasa en la conversación. Lo que sí consigue es establecer una coherencia en montar el discurso: pedir una pizza, ingrediente, pedirla, pero no es capaz de entender que estamos mezclando ingredientes que no son posibles.
En resumen
Todos estos modelos, que son capaces, como ordenadores que son, de hacer trabajos específicos con mucha efectividad, en realidad ejecutan una mímica que es la que les hemos enseñado en el proceso de aprendizaje. Y no es programación directa. Se trata de imitar lo que hacen los humanos, lo que les enseñamos en el entrenamiento, a partir de la estadística de los ejemplos.
El reflejo de este comportamiento hacia nosotros es lo que a los humanos nos parece inteligencia. Pero no lo es.
- Mind Matters
https://mindmatters.ai - Claude
https://claude.ai - LLaMa 2
https://ai.meta.com - Introducing LLaMa
https://ai.meta.com