ASCII码攻击LLM

这篇论文找到了基于ASCII的攻击LLM(或者说绕过LLM安全机制)的方法。如图1,2所解释的↓

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs(针对有安全机制的LLM 的基于 ASCII Art 的越狱攻击)

论文:arxiv.org/abs/2402.11753

论文摘要:
安全对于大型语言模型 (LLM) 的使用至关重要。数据过滤和监督微调等多种技术已被开发出来,以加强LLM的安全性。

然而,目前已知的技术假设用于LLM安全对齐的语料库仅通过语义来解释。然而,这种假设在实际应用中并不成立,这导致LLM存在严重漏洞。例如,论坛的用户经常使用 ASCII 艺术(一种基于文本的艺术形式)来传达图像信息。

在本文中,我们提出了一种新颖的基于 ASCII 艺术的越狱攻击,并引入了综合基准视觉文本挑战(ViTC)来评估LLM识别不能仅通过语义解释的提示的能力。我们展示了五个 SOTA LLM(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)难以识别以 ASCII 艺术形式提供的提示。

基于这一观察,我们开发了越狱攻击 ArtPrompt,它利用LLM在识别 ASCII 艺术方面的糟糕表现来绕过安全措施并引发LLM的不良行为。ArtPrompt 仅需要对受害者 LLM 进行黑盒访问,使其成为一种实用的攻击。

我们在五个 SOTA LLM上评估了 ArtPrompt,并表明 ArtPrompt 可以有效且高效地诱导所有五个LLM的不良行为。