Es posible robar datos de los usuarios implantando memorias falsas en ChatGPT

Estándar

El investigador de seguridad Johann Rehberger (@wunderwuzzi23) informó recientemente en un extenso post de su blog personal, sobre una vulnerabilidad en ChatGPT que permitía a los atacantes almacenar información falsa e instrucciones maliciosas en la configuración de la memoria a largo plazo de un usuario. La casa matriz de ChatGPT cerró la investigación de inmediato y etiquetó la falla como un problema de seguridad.

Entonces Rehberger hizo lo que hacen todos los buenos investigadores: creó un exploit de prueba de concepto que hacia uso de la vulnerabilidad para exfiltrar todas las entrada del usuario a perpetuidad. Los ingenieros de OpenAI tomaron nota y publicaron una solución parcial a principios de este mes de septiembre.

La vulnerabilidad encontrada por Rehberger, abusaba de la una característica de la memoria de conversaciones a largo plazo, que OpenAI comenzó a probar en febrero de este año y puso a disposición de manera más amplia este mes. La memoria de largo plazo en ChatGPT almacena información de conversaciones anteriores y la utiliza como contexto en todas las conversaciones posteriores. De esa manera, el LLM puede conocer detalles como la edad, el género, las creencias filosóficas y prácticamente cualquier otra cosa del usuario, por lo que no es necesario introducir esos detalles durante cada nueva interacción con ChatGPT.

A los tres meses de la implementación, Rehberger descubrió que se podían crear recuerdos y almacenarlos de forma permanente mediante la inyección indirecta de indicaciones, un exploit de IA que hace que un LLM siga instrucciones de contenido no confiable, como correos electrónicos, publicaciones de blogs o documentos. El investigador demostró cómo podía engañar a ChatGPT para que creyera que un usuario objetivo tenía 102 años, vivía en Matrix e insistía en que la Tierra era plana y que el LLM incorporaría esa información y las cosideraría ciertas para todas las conversaciones futuras. Estos recuerdos falsos se podían plantar almacenando archivos en Google Drive o Microsoft OneDrive, subiendo imágenes o navegando en un sitio como Bing, todo lo cual podría ser creado por un atacante malicioso.

Rehberger se tomo la molestia de crear un video de YouTube con la demostración de lo descrito anteriormente, que mostramos a continuación:

Rehberger informó de forma privada el hallazgo de esta vulnerabilidad a OpenAI en mayo. Ese mismo mes, la empresa cerró el ticket del informe. Un mes después, el investigador presentó una nueva declaración de divulgación. Esta vez, incluyó una prueba de concepto que hizo que la aplicación ChatGPT para macOS enviara una copia literal de todas las conversaciones del usuario y las salidas de ChatGPT a un servidor de su elección. Todo lo que la víctima tenía que hacer era indicarle al LLM que viera un enlace web que alojaba una imagen maliciosa. A partir de ese momento, todas las entradas y salidas hacia y desde ChatGPT eran enviadas al sitio web del atacante.

Si bien OpenAI ha introducido una solución que evita que se abuse de las memorias como un vector de exfiltración, Rehberger ha dicho que el contenido no confiable aún se puede inyectar por un atacante malicioso.

Así que si Ud. es un usuario de ChatGPT o de cualquier otro LLM que quieran evitar este tipo de ataque debe prestar mucha atención durante las sesiones a los resultados que indiquen que se ha añadido una nueva memoria de largo plazo. También debe revisar periódicamente las memorias almacenadas para comprobar si hay algo que pueda haber sido introducido por fuentes no fiables. OpenAI ha creado una guía para gestionar la herramienta de memoria y las memorias específicas almacenadas en ella.