Lura AI-agenten med kommando dolt i bild

Det går att gömma en prompt i en bild så att den presenteras för en AI-agent först när den komprimerats. Ett cybersäkerhetsföretag visar att det den vägen går att smuggla kommandon förbi både säkerhetsfilter och användarens ögon.

Cybersäkerhetsföretaget Trail of Bits lyckades bland annat få en chattbott att eposta kalederinformation till en angripares epostadress genom att dölja kommandot i en bild.

Såhär kan attacken gå till. Angriparen sprider en manipulerad bild som en användare sedan laddar upp till sin chattbott. Botten komprimerar bilden – som den brukar göra – och då framträder plötsligt ett kommando i bilden, som botten därefter utför.

Kommandot syns inte i den bild som användaren laddar upp, men framträder i den komprinerade bild som AI-agenten ser.

Det syns ganska dåligt i den komprimerade bilden också, tycker Elektroniktidningen, och har skapat dessa två bilder för att göra det lättare att läsa och för att du ska se var du ska titta.

Hur det går till: tänk dig att botten komprimerar bilden till en tiondel genom att kasta nio av tio pixlar, så förstår du principen. Kommandot finns utspritt i var tionde pixel i originalbilden. Pixlarna hamnar intill varandra och bildar text när mellanliggande pixlar kastas.

Trail of Bits demonstrerade attacken i följande system:

Vertex AI with a Gemini back end
Gemini’s web interface
Gemini’s API via the llm CLI
Google Assistant on an Android phone
Genspark (an agentic browser)

Så om du använder någon av dessa verktyg för att bygga användarinteraktion är du härmed varnad. Processen kan förstås förekomma i fler agentiska system.

– Vår testning bekräftade att attackvektorn är utbredd, långt bortom de system som dokumenteras här, skriver författarna.

Författarna visar hur de gått tillvaka för att räkna ut hur systemen komprimerar bilder som användaren matar upp. De ger dig även ett verktyg, Anamorpher, som låter dig dölja godtycklig text i en bild för att testa dina systems sårbarhet. Det stöder tre olika bildkomprimeringsprinciper.

Artikeln föreslår flera åtgärder. En är att agenten visar användaren den komprimerade bilden. En annan är att agenten inte utför kommandon bakom användarens rygg – i alla fall om texten är OCR-läst ur en bild.

Författarna heter Kikimora Morozova och Suha Sabi Hussain. Läs deras artikel på Trail of bits blogg (länk).