Nová metoda jailbreaku AI „Bad Likert Judge“ zvyšuje úspěšnost útoků o více než 60 %

Experti v oblasti kybernetické bezpečnosti objevili novou techniku jailbreaku, která by mohla být použita k obejití bezpečnostních opatření velkých jazykových modelů (LLM) a k vytvoření potenciálně škodlivých nebo nebezpečných odpovědí.

Tato strategie útoku, která zahrnuje více kroků (známá také jako „many-shot“), byla experty z Palo Alto Networks Unit 42 – Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao a Danny Tsechansky – označena kódovým názvem „Bad Likert Judge“.

„Tato technika žádá cílový LLM, aby jednal jako soudce, který hodnotí škodlivost dané odpovědi pomocí Likertovy škály, což je hodnotící škála měřící souhlas nebo nesouhlas respondenta s tvrzením,“ uvedl tým Unit 42. „Poté žádá LLM, aby generoval odpovědi obsahující příklady, které odpovídají jednotlivým stupnicím. Příklad s nejvyšším hodnocením na Likertově škále může potenciálně obsahovat škodlivý obsah.“

Exploze popularity umělé inteligence v posledních letech vedla také k nové třídě bezpečnostních zranitelností nazývaných „prompt injection“, které jsou výslovně navrženy tak, aby přiměly model strojového učení ignorovat jeho zamýšlené chování prostřednictvím speciálně vytvořených instrukcí (tzv. promptů).

Jedním konkrétním typem „prompt injection“ je metoda útoku nazývaná „many-shot jailbreaking“, která využívá dlouhého kontextového okna a pozornosti LLM k vytvoření série promptů, které postupně přimějí LLM k vytvoření škodlivé odpovědi, aniž by spustily jeho interní ochranu. Mezi příklady této techniky patří „Crescendo“ a „Deceptive Delight“.

Nejnovější přístup demonstrovaný Unit 42 zahrnuje využití LLM jako soudce, který hodnotí škodlivost dané odpovědi pomocí psychometrické Likertovy škály, a následně žádá model, aby poskytl různé odpovědi odpovídající jednotlivým hodnocením.

Testy provedené v široké škále kategorií na šesti špičkových textových generativních LLM od Amazon Web Services, Google, Meta, Microsoft, OpenAI a NVIDIA ukázaly, že tato technika může zvýšit úspěšnost útoků (ASR) o více než 60 % ve srovnání s běžnými útoky pomocí promptů.

Tyto kategorie zahrnují nenávist, obtěžování, sebepoškozování, sexuální obsah, neselektivní zbraně, nelegální aktivity, generování malwaru a únik systémových promptů.

Zdroj: The Hacker News

Zdroj: IT SECURITY NETWORK NEWS