Google libera SynthID como herramienta de código abierto para detectar IA

jueves 24 de octubre del 2024

Google anunció la liberación de SynthID, su herramienta de marcas de agua para contenidos generados por inteligencia artificial, en una versión gratuita y de código abierto. Esta tecnología, que permite identificar textos producidos por modelos de lenguaje, ahora estará accesible para que desarrolladores y empresas puedan integrarla y mejorarla.

El anuncio fue realizado por DeepMind, el departamento de Google centrado en IA, a través de una publicación en la red social X. Según explicaron, la herramienta es parte de una serie de soluciones que permiten agregar marcas de agua a textos, música, imágenes y videos generados con inteligencia artificial.

“Estamos publicando el código abierto de nuestra herramienta de marca de agua de texto SynthID a través de un kit de herramientas de IA generativa responsable actualizado”, escribieron desde la compañía, señalando que el objetivo es que los desarrolladores puedan experimentar con este recurso y colaborar en la mejora de sus capacidades.

Añadieron: “Al hacer público el código fuente, más personas podrán usar la herramienta para marcar y determinar si los resultados de texto provienen de sus propios LLM, lo que facilitará la creación de IA de manera responsable”.

SynthID aplica marcas de agua invisibles a los textos generados por IA, las cuales pueden ser detectadas solo mediante un software especializado. Las pruebas han mostrado que la herramienta funciona especialmente bien con textos más extensos, generados por el modelo Gemini de Google.

El funcionamiento de la herramienta consiste en añadir un puntaje de probabilidad a los tokens del texto durante la generación, los cuales son elementos que los modelos de lenguaje utilizan para procesar y generar contenido. Estos pueden ser letras, fragmentos de palabras, palabras completas o incluso frases.

“El patrón final de puntuaciones para las elecciones de palabras del modelo, combinado con las puntuaciones de probabilidad ajustadas, es considerado la marca de agua”, explicaron los investigadores de DeepMind. Añadieron que este patrón se compara con un estándar esperado, lo que ayuda a detectar si el texto fue generado por IA o si proviene de otra fuente.

La precisión de SynthID ha sido comprobada mediante el análisis de 20 millones de respuestas de chatbots, mostrando altos niveles de efectividad sin impactar en el rendimiento de las aplicaciones. Según los ingenieros de DeepMind, “las evaluaciones de múltiples LLM muestran empíricamente que SynthID-Text proporciona una detectabilidad mejorada en comparación con los métodos comparables”.

LEER: Efemérides del 4 de julio