Con la capacidad de crear escenas fotorrealistas de hasta un minuto a partir de una simple frase de texto, Sora ha dejado boquiabierto al mundo audiovisual. ¿Estamos ante el fin de las superproducciones?

Si 2023 fue el año en que las máquinas aprendieron a hablar (con ChatGPT) y a dibujar (con herramientas como Midjourney), este año quedará marcado en los libros de historia como el momento en que las máquinas aprendieron a dirigir cine. OpenAI ha desvelado Sora, su último milagro tecnológico: un modelo capaz de generar vídeos en altísima resolución a partir de descripciones de texto.

La explosión mediática no se ha debido simplemente a que el sistema "haga vídeos". Lo que realmente ha desatado el pánico (y la fascinación) en decenas de industrias creativas ha sido el nivel de fotorrealismo y consistencia física de las escenas que puede producir este potente modelo computacional.

Entendiendo la física del mundo real

Hasta hace poco, los escasos modelos generadores de vídeo que existían sufrían de "demencia" a los tres segundos. Los personajes cambiaban de ropa mágicamente en cada fotograma, los objetos se derretían y las leyes de la gravedad brillaban por su ausencia.

Sora, sin embargo, ha sido entrenado de una forma muy distinta. OpenAI no solo le enseñó al modelo a reconocer píxeles, sino que lo estructuró para simular la física del mundo en movimiento de manera tridimensional.

Esto significa que si le pides a la IA que genere "un perro dálmata caminando sobre los charcos de una calle de Tokio iluminada por neones", Sora entiende cómo la luz de un neón debe rebotar sobre el agua del charco en ángulos específicos, comprende que las patas del perro deben chapotear el agua y tiene totalmente contextualizado cómo se comporta una cámara de cine real al seguir al animal.

Sora puede, además, mantener la consistencia del personaje a lo largo de un minuto entero de metraje en alta definición (1080p), recordando detalles como las manchas del perro incluso cuando este sale momentáneamente del encuadre y vuelve a entrar.

El impacto inmediato en la industria y Hollywood

La reacción de la meca del cine y las agencias de publicidad no se hizo esperar. ¿Qué ocurre cuando grabar un anuncio publicitario deja de costar decenas de miles de euros (en equipo de cámaras, actores, dietas, viajes y directores) para pasar a costar literalmente cero y generarse en diez minutos desde un portátil?

Para estudios y productoras, Sora se perfila como una herramienta maravillosa de storyboarding, es decir, para generar los bocetos visuales o escenarios imposibles antes de rodar. También abaratará drásticamente la creación de efectos especiales y texturas de fondo que hasta ahora requerían meses de trabajo de animadores 3D.

Sin embargo, para profesiones como actores de doblaje, extras de producción o bancos de imágenes y clips de stock, esta herramienta supone una amenaza existencial directa. Si puedes conseguir un clip perfecto de un dron sobrevolando el Himalaya escrito textualmente, nadie pagará por una licencia de vídeo antigua de un paisaje genérico grabado por humanos.

Las barreras éticas de la nueva realidad

Al contar con el poder absoluto para crear realidad simulada de tal calidad, los riesgos sociales son igual de inmensos. OpenAI es sumamente consciente de que en épocas electorales o en climas de desinformación masiva, Sora podría utilizarse para fabricar campañas de difamación, deepfakes indetectables o reescribir la historia gráfica.

Por ello, la compañía ha optado por un lanzamiento extremadamente cerrado, habilitando el uso del modelo únicamente a artistas selectos e investigadores de ciberseguridad (red teamers) que están poniendo a prueba los límites del sistema para asegurar que jamás pueda generar contenido violento explícito o violar éticas de privacidad antes de abrirlo completamente al público mundial.


Fuentes consultadas:

  1. Documentación visual oficial de OpenAI (Sora).
  2. Reportes de análisis de medios de comunicación en The Verge y Pluralsight.
Publicidad