Sora
Tiempo de lectura: 3 minutos
Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.
Imágenes
Actualmente el desarrollo de las IAs generativas para imagen está alcanzando un buen nivel en el que las imágenes se crean a ata resolución y con gran cantidad de detalles. Sin embargo, las imágenes fallan a la hora de reproducir detalles que conocemos muy bien como las manos de las personas, caras en planos de fondo o de multitudes, etc.
Todos estos puntos van avanzando de una forma muy rápida y podemos comparar con los primeros modelos el avance alcanzado. Lo extraordinario es que los primeros modelos son de solo unos meses antes.
Uno de los puntos más destacados es el autocompletado de imágenes o la generación de contexto adicional, paisajes, cielos y otros elementos que ya se usan de forma regular en los programas de retoque.
Vídeos
El vídeo parece que era la asignatura pendiente, pero OpenAI acaba de presentar Sora, una IA generativa que crea video a partir de instrucciones de texto.
Sora es un modelo de difusión que genera un vídeo comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.
Está en primera versión, pero los videos que podemos ver, publicado por OpenAI, son espectaculares. Sí, se pueden encontrar fallos en el movimiento, como en el vídeo de Tokio, donde podemos ver el cambio de pie en la modelo, o el salto en el andar, pero el reflejo en las gafas de la modelo indica que el contexto detrás de la cámara también está recreado.
Este video se ha generado directamente a partir de un texto:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Dice OpenAI que "Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico."
De imagen a video
Recordemos que esta es la primera versión del generado de video, pero las capacidades de Sora serán poder generar clips a partir de una imagen, recreando el contexto. Esto podría darnos la capacidad de hacer películas a partir de dibujos que un autor haga de una historia que tenga en mente y de la cual se pueda derivar una película.
Pero de momento esta capacidad no está disponible. Aunque no parece que tarde en llegar.
Esto no quiere decir que no se esté produciendo continuidad a nivel de fotogramas. En los videos que se muestran, los detalles de un rostro, por ejemplo, se mantienen a los largo de la reproducción, es decir de un fotograma a otro. Hasta ahora, esto era un problema y las imágenes se iban desintegrando. En cambio, se han generado vídeos de un minuto de duración manteniendo la integridad de los personajes. Todo un logro.
Peligros
Podríamos pensar que todo esto pone en peligro la realización de películas, a los actores y la industria del cine en general, pero no nos hemos de alarmar porque, todavía, no es posible crear una película a partir de la generación de varios clips.
La continuidad, o la relación entre las diferentes planos de una filmación, es algo que la IA no sabe manejar y parece que es un problema realmente serio para solucionar porque se necesita saber la continuidad mental que espera el espectador para que haya una lógica en la historia.
Conclusión
Lo resultados de Sora, a día de hoy, son espectaculares. Las posibilidades que se abren con esta tecnología parece que no van a tener límites, pero uno de los puntos que más se deben estudiar son las repercusiones que puede tener si se hace un mal uso de ella. Y sabemos que, por muchas limitaciones que se incluyan en la IA, los humanos tenemos más creatividad a la hora de engañar.
- Informe técnico
https://openai.com

