Agentes de IA
Tiempo de lectura: 2 minutos
OpenAI acaba de presentar la versión beta de Operator, un agente que permite realizar acciones online de cualquier cosa que le indiquemos, interactuando con las páginas web como lo haríamos nosotros mismos.
Camino a la AGI
Cuando estuvimos viendo las etapas que definió OpenAI para llegar a la Inteligencia Artificial Genera (AGI), o superinteligencia artificial, el primer nivel eran los chatbots, ya superado. El segundo nivel lo constituyen los modelos con razonamiento, como el modelo o1. Ahora entramos en el nivel, 3 con un agente.
Operator
Operator es un agente de IA que puede completar acciones online. En la web de OpenAi se define como una previa de investigación de un agente que puede acceder a la web para realizar tareas para ti. Puede automatizar varias tareas (como completar formularios, reservar viajes o incluso crear memes) al interactuar de forma remota con un navegador web de la misma manera que lo haría una persona, mediante clics del mouse, desplazamiento y escritura.
Podemos pedirle, en esta versión beta, que busque un lugar interesante para ir de vacaciones y que compre un par de billetes a buen precio para un salir dentro de un mes y que nos envíe fotos de ese lugar por email.
En la primera demo que realizó Carlos Santana el canal Dot DCV Lab, realiza varias acciones con gran éxito, incluso corrigiéndose a sí mismo cuando encuentra dificultades.
Operator tiene su propio navegador y realiza las acciones con él. Además podemos interaccionar en el navegador de Operator si es neceario o si hemos de entrar credenciales para continuar.
Versión beta
OpenAi ha indicado que esta es una primera versión del agente y que puede cometer errores, pero aun así se muestra muy eficiente, incluso en los momentos en que no puede leer correctamente las páginas web. Es capaz de refrescarlas y proseguir.
“El modelo CUA (Computer-Using Agent) está entrenado para solicitar la confirmación del usuario antes de finalizar tareas con efectos secundarios externos, por ejemplo, antes de enviar un pedido, enviar un correo electrónico, etc., para que el usuario pueda verificar el trabajo del modelo antes de que se vuelva permanente”, indican desde OpenAI.
Un punto que me ha parecido muy curioso e inteligente es que, al pedirle que realice un cálculo, ha abierto la calculadora en el navegador, ha pegado los cálculos y ha recuperado el resultado.
Competencia
Tenemos agentes creados por Rabbit, Google y Anthropic. OpenAi se ha incorporado el último dentro de los agentes, pero ha hecho un buen trabajo por lo que se ve en la primera beta.
Seguridad
Este es uno de los puntos que más se discutirán cuando se popularicen los agentes. Será un momento para forzar las regulaciones sobre el uso de la IA.
Cuando un sistema de IA puede realizar acciones en la web, abre la puerta a casos de uso mucho más peligrosos por parte de actores maliciosos. Se podrían automatizar agentes de IA para orquestar estafas de phishing o ataques DDoS, o hacer que adquieran entradas para un concierto antes de que nadie más pueda hacerlo.
El operador emplea herramientas que buscan limitar la susceptibilidad del modelo a mensajes maliciosos, instrucciones ocultas e intentos de phishing, explica OpenAI en su página web.
Conclusión
En definitiva, el CUA puede usar botones, navegar por menús y completar formularios en una página web de forma muy similar a como lo haría un humano. Menos los Captcha, de los que avisa que ha encontrado uno y solicita la intervención del usuario para continuar.
- Operator
https://openai.com - OpenAI Operator
https://help.openai.com