Olvídate de teclear. Google ha sacado toda su artillería pesada con 'Project Astra', un sistema que no solo te escucha, sino que mira simultáneamente el mundo a través de la cámara de tu móvil para asistirte en tiempo real como un aliado ubicuo.

Durante los pasados grandes eventos de desarrolladores, todas las tecnológicas mostraban demostraciones apabullantes de lo que su Inteligencia Artificial conseguía hacer resolviendo complicados rompecabezas de texto y resúmenes inabarcables en pantallas de ordenador. Pero Google, que había permanecido sigilosa absorbiendo grandes choques con el lanzamiento de su modelo base Gemini, decidió romper la baraja en materia de Hardware e interacción física lanzando finalmente su visión futura, denominada corporativamente Project Astra.

Lo que hace extraordinario a Project Astra es que abandona el paradigma clásico y encorsetado del "chat tradicional de texto".

Una mente multimodal de baja latencia

Cuando decimos de manera rimbombante o técnica que una herramienta es "multimodal en tiempo real", lo que la ingeniería quiere explicarle coloquialmente al usuario es lo siguiente: la Inteligencia ya no requiere traductores.

Históricamente, los asistentes virtuales leían un texto descriptivo de las imágenes, lo analizaban y lo contaban con una voz sintética postiza, lo cual provocaba un retraso gigantesco e irritante. En el ecosistema y corazón interno de Astra, el modelo masivo visual visualiza el cristal y el encuadre de la cámara de tu teléfono móvil o tus gafas portables simultáneamente al mismo momento y a la misma vez que está escuchando tu propia voz por el micrófono grabando.

En la vida real de los usuarios en la calle equivale a ir caminando con tu teléfono móvil apuntando a los grandes rascacielos de una ciudad, enfocando a una ventana rota o deteniéndote a enfocar la caja eléctrica estropeada en nuestra pared del salón y, literalmente hablar o dialogar en vivo, exclamando: "¿Qué parte o cable concreto le falta exactamente a esta placa para que funcione este reloj analógico averiado?" Al instante, una voz humana, empática y continua reacciona reconociendo la imagen sin interrupciones o pestañeos molestos para señalarte la solución visual y técnica a tus problemas.

El Reto de la Memoria Espacial y Continua

Pero hablar rápido de manera eficiente no basta para la meta o promesa a largo plazo elaborada masivamente por la división de DeepMind detrás de Google Astra. Uno de los mayores retos que presumió este modelo ante el mundo consistió en albergar memoria visual persistente a corto y largo plazo de todo su recorrido.

Significa con asombro directo e implícito que, sin exigirle a la máquina ni interactuar explícitamente tú de nuevo, si tras recorrer tu cuarto te colocas tus zapatillas e inicias una charla sobre astronomía en el balcón y le preguntas improvisadamente a viva voz al teléfono y apuntando al atardecer: "Oye, ¿te acuerdas dónde dejé o me quité las llaves antes de llegar allá de paseo?". El modelo recordará asombrosamente los marcos de las puertas cruzados en segundos pasados durante la retransmisión visual continua de tu cámara frontal media hora antes y señalará certeramente en qué banco te habías apoyado sobre una mesa sin importarle el nuevo contexto.

Un nuevo campo de batalla asomando

Si bien OpenAI se lanzó vertiginosamente al mercado consumista apurando su GPT-4o para eclipsar este avance temporalmente por fechas de lanzamiento y calendario público mediático de impacto, la penetración pasiva monumental de Google (que inserta esta IA en centenares de millones de teléfonos Android diariamente mediante software gratuito estandarizado) les garantiza el premio y el dominio final de esta carrera: asentar finalmente al primer agente o robot intangible virtual universal útil que el gran público lleve incesantemente encendido e integrado en el ojal y lente visual frontal de su bolsillo día tras día.


Fuentes consultadas:

  1. Documentos oficiales y cobertura central de presentaciones de la compañía (Google I/O y DeepMind Blog).
  2. Estudios globales y pruebas en entornos experimentales directos desde MIT Tech Review.
Publicidad