TECNO-VIRAL

OpenAI revela GPT-4o, su nueva generación de IA ‘omnimodelo’

Este lunes, OpenAI presentó la última versión de su modelo de Inteligencia Artificial (IA), destacando mejoras que le permiten “razonar a través de audio, visión y texto en tiempo real”.

Denominada GPT-4o (la “o” por “omni”), esta iteración representa una actualización del ya conocido GPT-4, disponible para todos los usuarios de la herramienta. Quienes posean una suscripción activa disfrutarán de “hasta cinco veces los límites de capacidad”, anunció Mira Murati, CTO de OpenAI, durante la presentación.

En su página oficial, OpenAI explicó que GPT-4o es un paso hacia una interacción persona-computadora mucho más natural, ya que acepta cualquier combinación de texto, audio e imagen como entrada, y genera respuestas en esos mismos formatos. La mejora significativa de este modelo radica en sus capacidades de generar respuestas en texto en idiomas distintos al inglés, mientras que en inglés iguala el rendimiento de GPT-4 Turbo, su predecesor.

Además, GPT-4o es más rápido y un 50% más económico en la API, especialmente mejorado en visión y comprensión de audio en comparación con modelos anteriores.

Una distinción técnica clave es que GPT-4o funciona de extremo a extremo en texto, visión y audio, permitiendo considerar factores como el tono de voz y ruidos de fondo, así como generar risas o expresar emociones. Esto se traduce en una capacidad para generar respuestas en audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos.

Los ingenieros también demostraron la capacidad de GPT-4o para interpretar imágenes en tiempo real capturadas a través de la cámara de un smartphone, ayudando en tareas como la resolución de ecuaciones lineales y la detección de emociones en rostros.

GPT-4o está disponible gratuitamente para todos los usuarios de ChatGPT, con suscriptores activos disfrutando de límites de mensajes ampliados. Las capacidades del modelo se implementarán de forma iterativa, y se espera el lanzamiento de una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas.

Los desarrolladores pueden acceder a GPT-4o en la API como modelo de texto y visión, mientras que OpenAI planea lanzar soporte para las nuevas capacidades de audio y video a un pequeño grupo de socios confiables en las próximas semanas.

Durante el evento, OpenAI también anunció el lanzamiento de una aplicación gratuita de ChatGPT para Mac.

LEER: La Municipalidad impulsa la campaña “Más Luces, Menos Ruido”

Artículos relacionados

Volver al botón superior