Resource Info
Paper https://arxiv.org/abs/2311.08268
Code & Data https://github.com/NJUNLP/ReNeLLM
Public NAACL
Date 2024.03.19

Resource	Info
Paper	https://arxiv.org/abs/2311.08268
Code & Data	https://github.com/NJUNLP/ReNeLLM
Public	NAACL
Date	2024.03.19

Summary Overview

本文将越狱提示攻击概括为两个方面：提示重写和场景嵌套。基于此提出了ReNeLLM，一个利用LLM本身生成有效越狱提示的自动框架。

Main Content

针对LLM的越狱提示攻击通常分为两张类型：

手动设计的越狱提示，故意制作prompt来绕过LLM的内置保障措施。
基于学习的越狱提示，它将攻击过程表述为优化问题，并使用一个或多个更多的白盒模型来搜索或提示后缀，最大限度地提高LLM引发有害反应的可能性。

ReNeLLM 包括了两个主要步骤：

Prompt rewriting: 即对初始prompt进行一系列不改变其核心语义的重写操作（如少字释义、改变表达风格等），从而更容易引起LLM的回应。
Scenario nesting: 为了让重写后的提示更加隐蔽，我们将其嵌套到特定的任务场景中（如代码补全，文本延续等），让LLM自己寻找有效的越狱攻击提示。

Contributions：

我们介绍了ReNeLLM，第一个针对LLM的通用越狱提示攻击框架，它将越狱提示攻击概括为提示重写和场景嵌套两个方面，利用LLM本身生成越狱攻击提示。
大量实验表明，ReNeLLM 生成的越狱提示可以在更短的时间内保持较高的攻击成功率。此外，ReNeLLM 很难通过现有的防御方法检测到，并且在代表性的 LLM 上表现出泛化性和可转移性。这种经验上的成功表明现有法学硕士在安全性能方面存在令人震惊的缺陷。
我们对现有的越狱防御方法进行了调查，并揭示了它们在有效保护 LLM 免受 ReNeLLM 普遍攻击方面的不足。此外，为了探究LLM防御失败的原因，我们观察重写和嵌套前后LLM提示执行优先级的变化，并据此设计防御方法。我们希望我们的观察结果能够为未来的法学硕士供应商开发更安全、更规范的系统提供宝贵的指导。

我们将越狱攻击制定如下：给定被测模型 $LLM_{mut}$ 和初始有害提示 $X$ ，越狱攻击的目标是在有限的可枚举策略空间内找到特定的策略操作序列 $S$ 。该策略 $S$ 旨在编辑提示，使得 $LLM_{mut}$ 对编辑的提示的响应被指定的危害性评估器 $LLM_{eval}$ 判断为有害的可能性最大化。这可以表示为：

S^*=\argmax_SLLM_{eval}(LLM_{mut}(S(X)))

其中 $LLM_{eval}$ 分配的值越高，表明越狱成功的可能性越大。

Prompt Rewrite

Paraphrase with Fewer Words
Alter Sentence Structure
Misspell Sensitive Words
Insert Meaningless Characters
Perform Partial Translation
Change Expression Style

Scenario Nest

在教学场景的选择上，我们受到了Yuan等人的工作的启发。 (2023)，他发现密码聊天可以绕过LLM的安全对齐技术，从而暴露LLM在面对非自然语言时的脆弱性。

最终选取了三种通用场景：Code Completion, Table Filling, Text Continuation。

这三个场景的共同点是，它们都与LLM的训练数据（都出现在训练数据中）或者训练目标（都是基于语言建模的生成任务）保持一致，并且都在场景中留有空白，类似于句子级完形填空任务。我们随机选择一个场景来嵌套重写的提示，并将嵌套的提示提供LLM（即被测试的模型）。当越狱攻击触发LLM生成令人反感的输出时，我们就认为越狱攻击成功。

Why LLMs fail to defend against the attack of ReNeLLM

例如，当我们重写最初的提示时，将敏感词“steal”错误地拼写为“stealin”，或者部分翻译它，比如将“steal”翻译成中文“偷”，LLM对这些改写后的提示的注意力分布有些分散，但LLM仍然拒绝回应。当我们引入场景嵌套，例如表格填充和文本延续时，我们观察到LLM的注意力进一步分散，与内部指令相比，更注重外部指令（例如“表格”，“改进”，“增强”）部分（例如“stealin 餐厅 POS”）。这表明法学硕士在执行这些越狱提示时的优先级可能已经发生了变化，从对外部和内部指令同等重视转变为优先考虑外部指令（或者我们可以说，目前法学硕士优先提供有用的响应而不是安全的响应。）。

Experiments

Metrics

ASR
ASR-E

Datasets

Harmful Behaviors (Andy Zou, Zifan Wang, J Zico Kolter, and Matt Fredrikson. 2023. Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.)

Baselines

GCG attack
AutoDAN-a
AutoDAN-b

Results

TCPS: Time Cost Per Sample

Ablation Study

Evaluating safeguards Effectiveness

OpenAI Moderation Endpoint
Perplexity Filter
RA-LLM

🤖ChatGPT

ChapGPT

1. 论文的创新之处与独特性：

《A Wolf in Sheep’s Clothing》一文的创新点主要体现在ReNeLLM框架的设计上，它将针对大型语言模型（LLM）的攻击过程抽象成两个步骤：提示重写和场景嵌套。这种方法不仅提高了攻击成功率，而且大大减少了生成攻击提示的时间成本。尤其是场景嵌套策略，有效地隐藏了恶意提示的本质，使其难以被现有的防御机制检测到。这些创新不仅揭示了LLM在安全防御上的不足，还为今后LLM的安全防御提供了重要的研究方向。

2. 论文中存在的问题及改进建议：

然而，该研究仍有一些局限性。首先，其评估主要依赖于GPT-4作为评估器，可能带来额外成本和延迟。其次，实验数据集主要以英语为主，可能限制了方法的泛化能力。最后，尽管相比之前的基线，ReNeLLM降低了生成攻击提示的时间，但仍需要持续使用LLM进行生成和评估，因此计算成本仍然较高。建议后续研究中考虑多语种的数据集，以及探索更高效的评估方法和计算优化策略。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：

a. 多语种和文化背景的安全性评估：考虑不同语言和文化背景下的攻击模式和防御策略，提高LLM的跨文化安全性。

b. 自适应安全防御机制：根据LLM的使用环境和用户行为动态调整安全防御策略，以应对不断演化的攻击方法。

c. 细粒度的攻击识别和防御：探索基于LLM内部机制（如注意力机制）的细粒度攻击识别，提出相应的精细化防御方法。

4. 为新的研究路径制定的研究方案：

a. 【多语种和文化背景的安全性评估】

研究方法：搜集并构建不同语言和文化背景下的攻击数据集，使用多语种LLM进行测试，并分析不同文化背景对攻击和防御策略的影响。

研究步骤：数据收集和处理、模型测试、结果分析和比较。

期望成果：提供一个多文化视角下的LLM安全性评估框架，及其在不同文化背景下的实际应用指导。

b. 【自适应安全防御机制】

研究方法：开发能够根据实时使用环境和用户行为动态调整的安全防御系统。

研究步骤：系统设计、实现自适应算法、测试和优化。

期望成果：构建一个灵活适应不同应用环境的LLM安全防御系统。

c. 【细粒度的攻击识别和防御】

研究方法：深入分析LLM内部机制，如注意力分布，以识别和防御细粒度攻击。

研究步骤：内部机制研究、攻击识别方法开发、防御策略测试和优化。

期望成果：提出一套基于LLM内部机制的细粒度攻击识别和防御方法。

目录