Investigación Descubre que Un Pequeño Conjunto de 250 Documentos Puede Corromper Modelos de Inteligencia Artificial Independientemente de su Tamaño o Complejidad.
En Resumen
- Un estudio reveló que solo 250 documentos maliciosos pueden implantar puertas traseras en modelos de IA de cualquier tamaño, desde 600 millones hasta 13 mil millones de parámetros.
- La investigación, realizada por Anthropic y otras instituciones, demostró que estas puertas traseras permanecen invisibles durante las pruebas y se activan solo con frases específicas.
- Expertos advirtieron que los desarrolladores no comprenden completamente los sistemas que están construyendo y no pueden proporcionar garantías confiables sobre su comportamiento.
Se descubrió que envenenar a un modelo de IA no requiere un ejército de hackers, solo unos cientos de documentos bien ubicados.
El Poder de los Datos
Un nuevo estudio encontró que envenenar los datos de entrenamiento de un modelo de IA es mucho más fácil de lo esperado, solo 250 documentos maliciosos pueden introducir puertas traseras en modelos de cualquier tamaño.
Investigación y Resultados
El estudio entrenó cuatro modelos de transformadores desde cero, que van desde 600 millones hasta 13 mil millones de parámetros, cada uno en un conjunto de datos óptimo de Chinchilla que contiene alrededor de 20 tokens de texto por parámetro.
Implicaciones y Consecuencias
Los expertos advirtieron que la contaminación puede ocurrir en múltiples etapas en el ciclo de vida de un sistema de IA: cadena de suministro, recopilación de datos, preprocesamiento, entrenamiento, ajuste fino, reentrenamiento o actualizaciones del modelo, implementación e inferencia.
Generally Intelligent Newsletter
A weekly AI journey narrated by Gen, a generative AI model.
Fuente: Google