Sora de OpenAI: La Revolución de la IA en Creación de Vídeos con Resultados Asombrosos

Publicado: 21 Febrero 2024 | Escrito por Javier Orovengua | Correo electrónico | Visto: 743

En un momento en que Google deja atrás Bard en favor de Gemini y muestra los últimos avances en inteligencia artificial, OpenAI ha destacado su liderazgo en la carrera de la IA con su última creación: Sora. En este artículo, exploraremos lo más relevante de Sora, la impresionante inteligencia artificial diseñada por OpenAI para la creación de vídeos.

¿Qué es Sora y cómo funciona?

Al igual que ChatGPT o DALL-E, Sora es un modelo generativo de inteligencia artificial creado por OpenAI con la capacidad de generar vídeos cortos de hasta 60 segundos a partir de una descripción de texto. Esto significa que puedes expresar lo que deseas crear en lenguaje natural, enviar la descripción y dejar que Sora se encargue del resto.

Una característica clave es la capacidad de utilizar lenguaje natural en las instrucciones, permitiéndote detallar aspectos sobre personajes, movimientos y escenarios. Aunque la calidad de los resultados también dependerá de tu habilidad para redactar comandos de manera precisa.

El funcionamiento de Sora es similar a otros sistemas que transforman texto en imágenes, como DALL-E o MidJourney, pero en este caso, se centra en generar imágenes en movimiento. Aunque existen herramientas similares como Pika o Runway, Sora se destaca por sus resultados, proporcionando vídeos detallados y realistas que a veces son difíciles de distinguir de los creados de manera convencional.

Para lograr esto, Sora se basa en un entrenamiento exhaustivo con un extenso catálogo de vídeos. La pregunta crucial es: ¿de dónde provienen estos vídeos? Aunque la práctica de utilizar vídeos sin permiso ha llevado a demandas contra OpenAI, la tecnología de Sora se basa en Grandes Modelos de Lenguaje (LLMs) que emplean zonas visuales en lugar de tokens. La compresión y descompresión de estas zonas a lo largo del tiempo permite la generación de vídeos. Para entender el lenguaje, Sora utiliza enfoques similares a los de DALL-E 3.

Este modelo ha logrado sus capacidades gracias a su entrenamiento con una extensa biblioteca de vídeos, lo que le permite reconocer movimientos, descripciones y cualquier solicitud para recrearlos de manera vívida en formato de vídeo. Desde tipos de personas hasta detalles de vestimenta, accesorios y efectos visuales, Sora puede comprender y materializar tus ideas en vídeo de manera impresionante.

Cómo probar Sora

Aunque Sora se ha anunciado y ya hemos podido verlo en acción, OpenAI explica que todabía se encuentra en fase de formación del equipo rojo. ¿Qué significa exactamente? Que está siendo sometido a pruebas complejas y controvertidas para asegurarse de que no genere contenido dañino o inapropiado.

No obstante, OpenAI también proporciona acceso limitado a una serie de personas compuesta por artistas visuales, diseñadores o cineastas para recibir su feedback y así mejorar el modelo para que sea más útil para profesionales del área creativa. En teoría, una buena medida para que sea vista como una herramienta para beneficiarse de ella en el proceso creativo y no como una amenaza.

Eso sí, por el momento desconocemos cuándo Sora será lanzado oficialmente para uso público y empresarial.

Lo mejor que puedes hacer con Sora

Teniendo en cuenta que no hemos podido meterle mano al estar restringido y que las demos de OpenAI dejan con ganas de más, el CEO de la empresa se ofreció a poner a prueba el software con prompts propuestos al momento por otras personas en X/Twitter. Aquí tienes algunos de los mejores:

Un mago con un sombrero de punta y una túnica azul con estrellas blancas lanzando un hechizo que dispara un rayo desde su mano y sostiene un viejo tomo en la otra mano

Un mitad pato, mitad dragón vuela a través de una hermosa puesta de sol con un hámster vestido con equipo de aventura en su espalda

Altman vuelve a introducir el prompt para obtener un vídeo todavía mejor:

Un recorrido a pie de calle por una ciudad futurista en armonía con la naturaleza y al mismo tiempo cyperpunk / alta tecnología. La ciudad debería estar limpia, con tranvías futuristas avanzados, hermosas fuentes, hologramas gigantes y robots por todas partes. Haz que el video sea de un guía turístico humano del futuro que muestra a un grupo de extraterrestres la ciudad más genial y gloriosa que los humanos son capaces de construir.

Una carrera de drones futurista al atardecer en el planeta Marte

Dos golden retrievers haciendo podcasts en la cima de una montaña

Una clase de cocina para hacer ñoquis caseros organizada por una abuela influencer, ambientada en una cocina rústica de la Toscana con iluminación cinematográfica