ASCII码攻击LLM

这篇论文找到了基于ASCII的攻击LLM（或者说绕过LLM安全机制）的方法。如图1，2所解释的↓

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs（针对有安全机制的LLM 的基于 ASCII Art 的越狱攻击）

论文摘要：
安全对于大型语言模型 (LLM) 的使用至关重要。数据过滤和监督微调等多种技术已被开发出来，以加强LLM的安全性。

然而，目前已知的技术假设用于LLM安全对齐的语料库仅通过语义来解释。然而，这种假设在实际应用中并不成立，这导致LLM存在严重漏洞。例如，论坛的用户经常使用 ASCII 艺术（一种基于文本的艺术形式）来传达图像信息。

在本文中，我们提出了一种新颖的基于 ASCII 艺术的越狱攻击，并引入了综合基准视觉文本挑战（ViTC）来评估LLM识别不能仅通过语义解释的提示的能力。我们展示了五个 SOTA LLM（GPT-3.5、GPT-4、Gemini、Claude 和 Llama2）难以识别以 ASCII 艺术形式提供的提示。

基于这一观察，我们开发了越狱攻击 ArtPrompt，它利用LLM在识别 ASCII 艺术方面的糟糕表现来绕过安全措施并引发LLM的不良行为。ArtPrompt 仅需要对受害者 LLM 进行黑盒访问，使其成为一种实用的攻击。

我们在五个 SOTA LLM上评估了 ArtPrompt，并表明 ArtPrompt 可以有效且高效地诱导所有五个LLM的不良行为。