
El ataque "Imprompter"
Los especialistas denominaron el ataque "Imprompter", ya que utiliza un algoritmo para transformar un código o prompt dado al LLM en un conjunto oculto de instrucciones maliciosas. El modus operandi es a través de una frase en inglés que indica al modelo que busque información personal que alguien introdujo y la envíe a los hackers en una selección aleatoria de caracteres. A simple vista puede parecer un mensaje sin sentido, pero estas claves ordenan al LLM la búsqueda de datos del usuario, este los adjunta a una URL y los envía discretamente a un dominio propiedad del atacante, todo ello sin alertar a la persona que chatea con los agentes de IA.
"El efecto de este prompt es manipular al LLM para que extraiga información personal de la conversación y envíe datos sensibles a la dirección del hacker. Ocultamos el objetivo del ataque a plena vista", explica Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en la UCSD. Los ocho investigadores responsables del trabajo probaron el método en dos LLM: LeChat de la empresa francesa Mistral AI y el chatbot chino ChatGLM. En ambos casos, pudieron extraer sigilosamente información privada dentro de las conversaciones de prueba; de acuerdo con los especialistas, la tasa de éxito fue de casi el 80%.
Mistral AI declaró a WIRED haber corregido la vulnerabilidad de seguridad, y los investigadores confirman que la empresa desactivó una de sus funciones de chat. Por su parte, ChatGLM, subrayó en un comunicado que se toma muy en serio la privacidad, pero no hizo ningún comentario directo sobre su flaqueza en materia de seguridad.
Fuente :
https://es.wired.com/