Google presenta Gemini, su revolucionario modelo multimodal de IA

jueves 7 de diciembre del 2023

Google ha desvelado detalles asombrosos sobre su última incursión en el campo de la Inteligencia Artificial (IA): Gemini, un innovador “modelo multimodal” que podría cambiar el panorama de la IA, compitiendo directamente con el famoso ChatGPT de OpenAI. La demostración, realizada a través de videos difundidos por Google, marca un hito importante en el desarrollo de la empresa en este ámbito, que se ha intensificado en los últimos meses.

La característica distintiva de Gemini es su multimodalidad, permitiéndole no solo comprender texto, sino también otros formatos como imágenes, video, audio e incluso código de programación. Esto representa un avance significativo en comparación con modelos de la competencia, como DALL-E y Whisper, desarrollados por OpenAI para tareas específicas.

Sundar Pichai, CEO de Google, destaca que este lanzamiento marca una nueva era para la IA dentro de la empresa, permitiendo una mejora continua de la tecnología subyacente que se refleja instantáneamente en sus productos.

Descubriendo a Gemini: Interacción Multimodal en Tiempo Real

En uno de los videos revelados, Gemini se muestra en acción. Iniciando con la orden “Dime lo que ves”, el modelo responde identificando y describiendo elementos frente a una cámara. Desde trazos iniciales en un papel hasta la identificación precisa de objetos complejos, Gemini procesa la información en tiempo real, agregando detalles adicionales durante la interacción.

La capacidad de Gemini para realizar traducciones a diferentes idiomas y reproducir la pronunciación correcta de palabras añade una capa adicional de utilidad. Sin embargo, por el momento, la interacción se limita al inglés.

El video también revela la complejidad de la interacción, donde se le pide a Gemini que proponga una idea de juego basándose en lo que ve y que utilice emojis para representar pistas. La IA demuestra su habilidad al reconocer dibujos en juegos clásicos, destacando su versatilidad.

Tres Versiones de Gemini y su Futuro

Gemini cuenta con tres versiones distintas: Gemini Nano, diseñada para funcionar nativa y offline en dispositivos Android; Gemini Pro, que potenciará los servicios de IA de Google, incluyendo su chatbot Bard; y Gemini Ultra, la versión más potente destinada para tareas en centros de datos y aplicaciones corporativas, que se lanzará el próximo año.

Demis Hassabis, director ejecutivo de Google DeepMind, anticipa futuras mejoras en Gemini, incluyendo interacciones adicionales como la acción y el tacto. La empresa enfatiza su compromiso de avanzar de manera responsable hacia la Inteligencia Artificial General (AGI), superando los sesgos y alucinaciones que puedan surgir en los resultados.

En palabras de Hassabis, “a medida que nos acerquemos a AGI, las cosas serán diferentes”. Google aborda este desarrollo con cautela, pero también con optimismo, buscando un equilibrio entre el progreso tecnológico y la responsabilidad ética.

LEER: Actividades para toda la familia hoy en la Plaza María Auxiliadora