OpenAI revela GPT-4o, su nueva generación de IA ‘omnimodelo’

martes 14 de mayo del 2024 06:11

Este lunes, OpenAI presentó la última versión de su modelo de Inteligencia Artificial (IA), destacando mejoras que le permiten “razonar a través de audio, visión y texto en tiempo real”.

Denominada GPT-4o (la “o” por “omni”), esta iteración representa una actualización del ya conocido GPT-4, disponible para todos los usuarios de la herramienta. Quienes posean una suscripción activa disfrutarán de “hasta cinco veces los límites de capacidad”, anunció Mira Murati, CTO de OpenAI, durante la presentación.

En su página oficial, OpenAI explicó que GPT-4o es un paso hacia una interacción persona-computadora mucho más natural, ya que acepta cualquier combinación de texto, audio e imagen como entrada, y genera respuestas en esos mismos formatos. La mejora significativa de este modelo radica en sus capacidades de generar respuestas en texto en idiomas distintos al inglés, mientras que en inglés iguala el rendimiento de GPT-4 Turbo, su predecesor.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Además, GPT-4o es más rápido y un 50% más económico en la API, especialmente mejorado en visión y comprensión de audio en comparación con modelos anteriores.

Una distinción técnica clave es que GPT-4o funciona de extremo a extremo en texto, visión y audio, permitiendo considerar factores como el tono de voz y ruidos de fondo, así como generar risas o expresar emociones. Esto se traduce en una capacidad para generar respuestas en audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos.

Los ingenieros también demostraron la capacidad de GPT-4o para interpretar imágenes en tiempo real capturadas a través de la cámara de un smartphone, ayudando en tareas como la resolución de ecuaciones lineales y la detección de emociones en rostros.

GPT-4o está disponible gratuitamente para todos los usuarios de ChatGPT, con suscriptores activos disfrutando de límites de mensajes ampliados. Las capacidades del modelo se implementarán de forma iterativa, y se espera el lanzamiento de una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas.

Los desarrolladores pueden acceder a GPT-4o en la API como modelo de texto y visión, mientras que OpenAI planea lanzar soporte para las nuevas capacidades de audio y video a un pequeño grupo de socios confiables en las próximas semanas.

Durante el evento, OpenAI también anunció el lanzamiento de una aplicación gratuita de ChatGPT para Mac.

Etiquetas

martes 14 de mayo del 2024 06:11

Artículos Relacionados

Lecciones de Bill Gates para el éxito personal y profesional

El Autódromo San Nicolás fue nuevamente el escenario de las categorías Agrupadas Federadas

Mostró conducta agresiva y amenazó a su pareja

Cómo ocultar el círculo azul de WhatsApp que indica la presencia de la IA de Meta