TECNO-VIRAL

Un análisis visual sobre el funcionamiento del modelo de lenguaje de ChatGPT

El modelo de lenguaje de ChatGPT opera en base a la probabilidad de que ciertas palabras sean empleadas para completar las frases generadas por el sistema de Inteligencia Artificial (IA). A pesar de la falta de transparencia por parte de OpenAI, la empresa desarrolladora, respecto a los detalles de su diseño, ingenieros y desarrolladores han emprendido esfuerzos para desentrañar su funcionamiento.

Santiago Ortiz, científico de datos y creador del proyecto Moebio Labs, se dedicó a explorar esta lógica. En su proyecto “Mind”, representó visualmente el método probabilístico detrás de la generación de texto de ChatGPT, basado en palabras o tokens.

Este gran modelo de lenguaje (LLM) fue entrenado con un vasto corpus de textos, aprendiendo las probabilidades de diversas secuencias de palabras según su frecuencia y contexto. El modelo no comprende el lenguaje en sentido humano, sino de manera matemática, a través de patrones y secuencias de palabras.

Para su experimento, Ortiz utilizó la frase “La inteligencia es” como punto de partida para la generación de respuestas por parte del modelo, observando su comportamiento estadístico y semántico a lo largo de numerosas iteraciones.

Con los datos recopilados, Ortiz construyó un sitio web dividido en dos secciones: las respuestas generadas por el LLM a la izquierda y las opciones de palabras procesadas a la derecha, permitiendo al usuario explorar el proceso de generación.

El proceso de generación de respuestas de ChatGPT incluye la inicialización con el prompt del usuario, la predicción de tokens, el muestreo de palabras y la repetición del proceso hasta alcanzar un token de parada o una longitud máxima. Posteriormente, se realiza un refinamiento continuo del modelo para mejorar su precisión en la asignación de probabilidades a cada palabra, considerando el contexto y las palabras previas.

En resumen, el funcionamiento del modelo de lenguaje de ChatGPT se basa en la probabilidad y el análisis estadístico de secuencias de palabras, con el objetivo de generar respuestas coherentes y precisas a partir de un prompt inicial proporcionado por el usuario.

LEER: Críticas a la UOMRA: audiencia virtual sin avances reales

Artículos relacionados

Volver al botón superior