Google ha movido ficha con Gemini 1.5 Pro, introduciendo una capacidad que ningún otro modelo había logrado: devorar millones de tokens de una sola sentada. Analizamos qué significa esto para tu flujo de trabajo.

La guerra de la inteligencia artificial avanza tan rápido que en apenas seis meses algo "novedoso" puede quedar obsoleto. Un gran ejemplo de innovación sostenida es la última gran apuesta de Google: el modelo Gemini 1.5 Pro. Más allá de ser más rápido o más inteligente respondiendo, este modelo ha roto un cuello de botella histórico en la industria integrando una ventana de contexto masiva.

¿A qué nos referimos cuando hablamos de esta "ventana de contexto" y por qué debería importarte si solo quieres usar la IA para trabajar más rápido?

¿Qué es exactamente la ventana de contexto?

Imagina que una IA es una persona con una memoria a corto plazo muy estricta. La ventana de contexto es la cantidad de texto, código, imágenes o vídeos que la inteligencia artificial "puede recordar y mantener en su mente" de forma simultánea mientras conversa contigo antes de empezar a olvidar el principio de la conversación. Esta memoria a corto plazo se mide en una unidad llamada tokens (que suelen equivaler a tres cuartas partes de una palabra).

Hasta hace muy poco, los principales modelos como GPT-4 manejaban entre 32.000 y 128.000 tokens en sus versiones más caras (el equivalente a un libro corto o a unas cien páginas de un manual de instrucciones rápido).

Google, sin embargo, con Gemini 1.5 Pro, ha dinamitado todos los límites del mercado y ha ofrecido a los usuarios un entorno de trabajo que supera, de forma estable, los 2.000.000 de tokens.

¿Qué se puede hacer con dos millones de tokens?

Contar con dos millones de "recuerdos" simultáneos es un superpoder impensable hace dos años. A nivel práctico, esto significa que ya no hace falta ir pegando resúmenes a trocitos.

Ahora puedes adjuntar al chat, de una sola vez:

  • La bibliografía jurídica entera de tu investigación universitaria.
  • Más de una hora corrida de metraje de vídeo.
  • Decenas de horas de grabación de audio de todas tus reuniones del último cuatrimestre.
  • O directamente, repositorios gigantescos de código (decenas de miles de líneas de programación) de la base de una empresa.

Una vez que Google Gemini "mastica" de golpe todos esos archivos adjuntos, puedes hacerle preguntas complejísimas que requieran cruzar información entre los datos. Por ejemplo: "Dime exactamente en qué minuto del tercer vídeo se menciona la cifra financiera que aparece en la página 849 de los PDF legales que he adjuntado".

La IA es capaz de rastrear esos datos, razonar su contexto, localizar la imagen específica del vídeo y ofrecerte el resultado sin equivocarse, asumiendo un rol de analista de súper datos insuperable.

El futuro de la productividad profesional

Esta arquitectura empleada por Google, llamada de Memoria Eficiente Distribuida (Mixture-of-Experts), asegura además que la Inteligencia solo activa y "despierta" las parcelas de conocimiento estrictamente necesarias de su inmensa mente digital, para contestar sin saturarse ni derrochar energía excesiva en el servidor.

Con este tipo de potencia habilitada para empresas y curiosos, Google se asegura de mantenerse a la vanguardia de las operaciones intensivas y complejas. Si buscas que la inteligencia artificial haga tareas diarias breves como redactar correos, cualquier modelo te valdrá; pero si lo que deseas es que la IA procese la estructura completa y pesada de los cimientos de tu empresa o de tus estudios, a día de hoy, nadie puede mirar a los ojos a la inmensa memoria de Gemini.


Fuentes consultadas:

  1. Borradores técnicos de investigación (Google Blog).
  2. Reportes de rendimiento tecnológico de MIT Technology Review e institutos de investigación (Analytics Vidhya).
Publicidad