Midjourney dominaba el trono de la generación visual, pero Google ha entrado arrasando con Imagen 3. Detallamos lo bueno y lo malo de cada plataforma, y quién produce el arte más realista en la actualidad.

Cuando queremos plasmar una idea gráfica en nuestra mente en la pantalla, las reglas del juego han cambiado enormemente. Hace dos años, convencer a un modelo matemático para que dibujara unas manos con cinco dedos era un auténtico logro. Hoy en día, la batalla tecnológica se centra en matices como la textura de la piel humana a contraluz o la coherencia tipográfica de las letras que aparecen en los carteles virtuales.

En esta guerra por el fotorrealismo absoluto operan actualmente los indiscutibles pesos pesados: Midjourney v6 e Imagen 3, el sistema entrenado por Google DeepMind. Pero, a pesar de sus virtudes, sus métodos de lograr la perfección estética son radicalmente diferentes.

Midjourney v6: El pincel con alma de director cinematográfico

Midjourney forjó su impecable reputación en las entrañas de Discord, perfeccionando sus versiones mes a mes. Con su actual versión 6, Midjourney ha consolidado lo que la comunidad creativa define como su "alma de cineasta".

Si tú, como usuario, le pides a Midjourney v6 que te dibuje "un astronauta sentado en una mesa bebiendo café", el modelo raramente te dará una imagen plana. De manera inherente, aplicará profundidades de campo dramáticas, encuadres espectaculares, iluminación de tipo Rembrandt y acabados pictóricos de revista, todo sin que tú se lo hayas ordenado explícitamente.

Lo bueno: El nivel artístico puramente estético y fotorrealista de texturas que ofrece Midjourney v6 sigue siendo el estándar de oro publicitario con el mínimo esfuerzo por parte del usuario. Lo malo: Midjourney es un modelo testarudo. Como tiene tanto "estilo propio", si eres un diseñador muy específico que necesita algo exactamente como lo has escrito (con elementos posicionados milimétricamente en ciertas zonas), Midjourney suele ignorar partes de tu mandato (prompt) y dibujará la versión que su arquitectura considera "más bonita".

Imagen 3: Precisión de bisturí y entendimiento semántico profundo

Durante mucho tiempo, la generación de imágenes de Google estuvo infravalorada frente a sus rivales de Silicon Valley. Con el lanzamiento encubierto de Imagen 3, Google ha asestado un durísimo golpe de autoridad gracias a un as en la manga: un entendimiento masivo y natural de la estructura misma del lenguaje.

Imagen 3 no trata de mejorar estéticamente tus ideas añadiendo "estilo de cine dorado" por defecto. En cambio, su máxima virtud es que prestará atención meticulosa a cada palabra que escribas.

Si le pides que dibuje "un astronauta, en el que su casco tiene una abolladura roja a la derecha, sosteniendo un vaso de cartón de café verde, mientras en el fondo se lee la palabra CAFETERÍA", Imagen 3 te entregará el encuadre exacto sin desviarse ni un milímetro, escribiendo las letras de CAFETERÍA de forma perfecta y ubicando la abolladura e incluso los colores del vaso donde tú exigiste.

¿Con cuál te quedas para trabajar?

El veredicto se divide principalmente entre lo que busques: inspiración o control.

  • ¿Buscas resultados hermosos e hiperrealistas? Midjourney v6 es el rey para creativos. Con apenas tres palabras serás capaz de crear portadas espectaculares, paisajes de cuento o fotografías arquitectónicas majestuosas, ya que la Inteligencia se encargará de "hacerlas bellas".

  • ¿Necesitas obedeciencia total? Si trabajas con generación de logotipos exigentes, imágenes con letras detalladas dentro, y prompts increíblemente largos donde la relación espacial de los objetos importa, Imagen 3 te ofrecerá una precisión semántica por encima del resto del mercado de la generación visual, garantizando que todo lo escrito esté exactamente en la pantalla.

La creatividad del futuro ha dejado de depender necesariamente de una paleta física; ahora, cada pincelada se empuña mediante pulsaciones en el teclado.


Fuentes consultadas:

  1. Documentación y muestras gráficas formales publicadas por Google DeepMind (Imagen).
  2. Actualizaciones técnicas recientes desde los propios comunicados oficiales de desarrollo en Discord de Midjourney.
Publicidad