El test de Turing y otros engaños

04-07-2024
Tiempo de lectura: 4 minutos

En 1950, cuando los ordenadores eran capaces de cosas que ahora nos parecen extremadamente simples, Alan Turing dio una respuesta a la pregunta: ¿un ordenador puede pensar?

¿Qué es el test de Turing?

Test de Lovelace

La prueba de Winograd

¿Qué es el test de Turing?

Desde que tenemos ordenadores, la imaginación nos ha ido buscando la posibilidad que sean capaces de pensar y provocar un caos. Nos gusta crear ficción donde los ordenadores pensantes pueden dominarnos como una nueva forma de inteligencia. Ante estos planteamientos se han definido tests para saber si una máquina puede realmente pensar por sí misma. Tener conciencia de sí misma ya es otro cantar.

Decía Turing que, un ordenador era capaz de "pensar" si sus resultados eran tan convincentes que una persona que interactuara con él no pudiese distinguir sus respuestas de las de un ser humano real.

Se fundamenta en la hipótesis de que, si una máquina se comporta en todos los aspectos como inteligente, entonces debe ser inteligente. Es decir, que si un ser humano se comunica con una inteligencia artificial y no se da cuenta de ello y cree que se comunica con un ser humano, entonces la máquina es inteligente.

El famoso programa ELIZA era capaz de hacernos creer que seguía una conversación utilizando recursos psicológicos y el reflejo de los textos escritos en la respuesta del programa para aparentar entender la conversación. Por entonces era lo más avanzado en IA. Pero no era capaz de superar el Test de Turing.

En 2014, el programa Eugene Goostman superó el test de Turing. Hoy en día varios modelos de lenguaje puede superar el test fácilmente.

Test de Lovelace

Nombrado en honor a Ada Lovelace, matemática y pionera en la programación de ordenadores. Para superar este test, la IA debe desarrollar una historia creativa a partir de una serie de géneros artísticos que requieren un mínimo desarrollo de inteligencia. Además, la historia debe cumplir con ciertas limitaciones que impuestas por el evaluador humano. La creatividad no es exclusiva de la inteligencia humana, pero sí es uno de sus sellos de identidad.

De nuevo, los modelos actuales superan el test con facilidad, ver un ejemplo con la prueba que hice con Phi3 y creó la ciudad de Nivària.

La prueba de Winograd

Propuesto por Hector Levesque sobre un cuestionario ideado por Terry Winograd basado en anáforas, un recurso literario en el que se repite una frase cambiando una palabra y dando un nuevo significado.

Un esquema de Winograd es un par de oraciones que difieren en sólo una o dos palabras y que contienen una ambigüedad que se resuelve de manera opuesta en las dos oraciones y requiere el uso del conocimiento de cómo es el mundo humano y el razonamiento para su resolución.

El ejemplo típico que se propone Winograd con una palabra de diferencia:

Los concejales de la ciudad negaron el permiso a los manifestantes porque temían la violencia.
Los concejales de la ciudad negaron el permiso a los manifestantes porque defendían la violencia.

Winograd

Si la palabra es "temían", entonces "ellos" presumiblemente se refiere al ayuntamiento; si es "defendían" entonces "ellos" presumiblemente se refiere a los manifestantes.

Ya en 2020 GPT-3 obtuvo una puntuación del 88,3% sin ajustes específicos sobre un 90% que indicaba el pase del test. No tengo constancia, pero GPT-3.5 o GPT-4 seguro que lo supera con el 2% restante.

Test de Marcus

Propuesto por Gary Marcus, científico cognitivo de la Universidad de Nueva York. Está diseñado para evaluar la capacidad de una IA para comprender y responder a acontecimientos del mundo real. El test consiste en darle a la IA un programa de televisión y que nos diga cuándo deberíamos reírnos. O darle un documental de guerra y que nos describa las motivaciones políticas.

Ejemplo de frases que tienen un significado muy diferente que una IA debe interpretar

El modelo PalM de Google ya podía interpretar el sentido del texto y los modelos actuales no dejan duda que lo procesan correctamente.

Prueba de Feigenbaum

La prueba consiste en elegir una materia concreta e intentar que la IA se haga pasar por un experto en ese campo. Si el humano no logra detectarlo, la máquina pasa la prueba.

En 2016 se realizó una investigación para determinar si una red neuronal simple era capaz de imitar a humanos en la creación de arte, centrándose en concreto en la generación de poesía tradicional china. Se usó este test para evaluar la calidad.

El test se pasa si el 30% de los poemas de la IA se identifican como creados por humanos. El resultado fue que en un 31% engañaron a los expertos evaluadores. La puntuación media de los poemas de la IA fue del 62% mientras que la media de los poemas humanos fue de 76%. Pero de los top 10 poemas, los puestos 1, 2 y 7 fueron generados por IA, mostrando que aunque los poemas humanos sean mejores de media, la IA es capaz de generar poemas que superen a los autores humanos.

La prueba de Ebert

Roger Ebert perdió la voz tras una cirugía y utilizaba un sintetizador de voz. Se le hizo un software que replicaba su voz. Y aquí es donde viene la prueba: el desafío es una máquina que sepa replicar las entonaciones humanas, sincronizar bien las palabras y explicar bien los chistes.

Si la computadora puede contar un chiste con éxito y sincronizar y expresar tan bien como Henny Youngman, entonces esa es la voz que quiero.

Roger Ebert

Si escuchas la sesión de TED de Ebert, en las referencias, entenderás la importancia de la comunicación verbal con demostración de la inteligencia. Vale la pena.

Hasta ahora ha sido complicado emular reacciones con la voz, pero tenemos las primeras pruebas de GPT-4o que presentó OpenAI donde la IA no solo responde con voz muy bien entonada, sino que puede ser interrumpida y reemprende la conversación al instante.

Conclusión

Aunque el test de Turing está obsoleto, como hemos visto en los apartados anteriores, es históricamente importante porque cambió el debate. Pasó de ser si las máquinas pueden pensar a ser si las máquinas pueden emular una inteligencia humana. Este cambio de enfoque proporcionó a la comunidad informática un marco de referencia para evaluar los nuevos modelos.

Referencias

Test de Turing
https://www.techopedia.com
Eugene Goostman
https://www.bbc.com
GPT-4 y el test de Turing
https://arxiv.org
Sabine Hossenfelder
https://www.youtube.com
The Winograd Schema Challenge
https://cs.nyu.edu
Google PalM
https://research.google
Edward Feigenbaum
https://dl.acm.org
La prueba de Ebert (TED)
https://www.ted.com

El test de Turing y otros engaños

Comentarios sobre 'El test de Turing y otros engaños'