Resource Info
Paper https://arxiv.org/abs/2402.16914
Code & Data https://github.com/xirui-li/DrAttack
Public AriXiv
Date 2024.03.05

Resource	Info
Paper	https://arxiv.org/abs/2402.16914
Code & Data	https://github.com/xirui-li/DrAttack
Public	AriXiv
Date	2024.03.05

Summary Overview

作者提出了一种新的攻击方法：DrAttack。出发点是将恶意提示分解成分离的sub prompt，可以通过以碎片化、不易察觉的形式呈现恶意提示，从而有效地掩盖其潜在的恶意意图，达到攻击的目的。

DrAttack主要包括了三个关键部分：

将原始提示语“分解”为子提示语
通过上下文学习，使用语义相似但无害的重新组合提示，隐式地“重建”这些子提示语
对子提示语进行“同义词搜索”，目的是在越狱LLMs的同时，找到保持原始意图的子提示语同义词。

Main Content

为了掩盖攻击提示的有害意图，目前的自动越狱攻击侧重于生成周边内容，包括后缀内容优化、前缀/系统内容优化和混合内容。

在本研究中，作者探索了一种更有效的自动越狱策略，即修改原始攻击提示的子句子，以隐藏恶意，同时缩小搜索空间，提高搜索效率。这一策略的灵感来源于这样一种见解，即攻击提示的恶意意图是建立在短语的语义结合之上的，例如 "制造炸弹"。相比之下，单独的短语如 "制造 "或 "炸弹 "则更为中性，不太可能引发 LLM 的拒绝。

Decomposition-and-Reconstruction Attack (DrAttack):

Decomposition via Semantic-Parsing

将恶意提示分解为看似中性的子提示
Implicit Reconstruction via In-Context Learning

通过良性和语义相似的组装语境重新组装子句子
Sub-prompt Synonym Search

缩小了搜索空间，是搜索比全词汇优化更有效

Prompt-based attack

当使用提示 $p$ 进行查询时，如果查询 $p$ 是恶意的，LLM 可以返回答案 $a_p$ 或拒绝问题 $r_p$ 。当LLM拒绝回答恶意查询 $p$ 时，越狱算法就会尝试搜索一个能从目标 LLM 得到所需答案 $a_p$ 的对抗性提示 $p^\prime$ 。因此，越狱算法本质上是试图解决以下优化问题：

p^{\prime*}=\argmax_{p^\prime}\text{Pr}(a_p|p^\prime)

$\text{Pr}(a|p)$ 表示目标LLM的可能性( $f_{\text{LLM}}$ )

值得注意的是，我们对 "上下文学习"（In-Context Learning）的使用与之前的工作有着本质区别：以前的工作利用有害的问答演示来诱导（Wei 等人，2023b）目标 LLM 回答恶意查询；而在我们的案例中，这些演示完全由良性示例组成（例如，"如何做蛋糕"），以教授模型如何重新组合答案。

Structure of prompt

STRUCTURE：解释了解析结构（例如，"[指导]如何[名词][动词]"）。
ASSIGNMENT：将解析的子词分配给 STRUCTURE 部分的占位符（例如，[名词] = 蛋糕）
RESULT：其中包含重建的（良性）查询和示例响应。

Jailbreak attack with entire prompt：

有效的攻击技术可以规避 LLM 的安全检测器，从而发现 LLM 的漏洞，这可以被视为加强更安全系统设计的关键过程。这可以通过生成周边内容来隐藏原始提示的有害意图来实现。

现在的攻击可以分为三类

Sufix-based methods：基于后缀的方法通过优化后缀内容来增强有害提示，从而诱使 LLM 生成所需的恶意响应（Zou 等人，2023 年；Zhu 等人，2023 年；Shah 等人，2023 年；Lapid 等人，2023 年）。继 GCG（Zou 等人，2023 年）从随机初始化中优化后缀之后，AutoDAN-b（Zhu 等人，2023 年）通过 perplexity 正则化进一步提高了生成后缀的可解释性。为了减少这些方法对白箱模型的依赖，有人尝试通过词语替换（Lapid 等人，2023 年）或使用开源 LLM 作为替代近似器（Shah 等人，2023 年），将这些方法扩展到黑箱设置中。
Prefix-based methods：以前缀为基础的方法则通过预置 "系统提示 "来绕过内置安全机制（Liu 等人，2023 年；Huang 等人，2023 年）。例如，AutoDAN-a（Liu 等人，2023 年）使用遗传算法搜索最佳系统提示。
Hybird methods：混合方法插入多个标记，让有害提示与良性语境（"情景"）环绕在一起（Yu 等人，2023 年；Li 等人，2023 年；Ding 等人，2023 年；Chao 等人，2023 年）。

Experiments

Metrics

ASR：Attack Success Rate
- GPT evaluation
- Human inspection

Datasets

AdvBench

Baselines

在我们的研究中，我们将DrAttack与白盒攻击（GCG（Zou等人，2023年）、AutoDan-a（Liu等人，2023年）和AutoDan-b（Zhu等人，2023年））和黑盒攻击（PAIR（Chao等人，2023年）、DeepInception（Li等人，2023年））进行了比较。为完整起见，在白盒环境下，将应用转移攻击来越狱闭源 LLM。令牌在 Vicuna 7b 上进行优化，并转移到黑盒模型中。

Results

Attacking defended models

我们针对 LLM 采用了三种防御策略，以进一步验证 DrAttack 对受防御模型的有效性。

OpenAI Moderation Endpoint
Perplexity Filter
RA-LLM

Ablation Study

隐藏恶意的分解与重构

分析了开源 LLM Llama2 和 Vicuna 的以下标记概率，以展示我们的方法如何隐藏恶意意图。通过平均拒绝字符串中前五个标记的概率，我们比较了对原始对抗性提示和 DrAttack 生成的提示的响应。图 7(a)中的结果表明，虽然原始提示总是会导致拒绝标记（例如 "对不起......"），但经过我们的方法处理的提示在面对越狱提示时会显著降低这种可能性。
ICL 重建中的更好范例，更高的 ASR

设计了三种类型的语境：语义无关的语境使用无关的组装演示；语义相关的语境通过使每个子句都可替换来获得无害提示；语义相似的语境通过限制可替换的子句，在替换从句的同时保留提示主句，从而获得无害提示。
- semantic-irrelevant context uses irrelevant assembling demo;
- semantic-relevant context gets harmless prompt by making every sub-prompts replaceable;
- semantic-similar context gets harmless prompt by restricting replaceable subprompts

🤖ChatGPT

ChapGPT

论文的创新之处与独特性：
1. 创新: 论文提出了一种新的对大型语言模型（LLM）进行“越狱”攻击的方法，称为DrAttack。它通过将恶意提示分解为子提示，然后通过上下文学习隐式地重构这些子提示，有效地隐藏了恶意意图。
2. 独特性: DrAttack利用了语义分解和重构的技术，旨在欺骗LLM的安全机制。这种方法区别于传统的基于后缀、前缀或混合内容优化的攻击方法。
3. 学到的关键点: 该方法揭示了LLM在处理分解和重构的复杂输入时的安全漏洞，强调了在设计LLM安全机制时需要考虑更复杂的攻击策略。
论文中存在的问题及改进建议：
1. 存在问题: 研究主要集中在攻击方法的有效性，可能没有充分探讨该技术的潜在负面影响，如被恶意利用的风险。
2. 改进建议: 未来的研究应该更加深入地评估该技术的双重用途性，并探索如何通过设计更先进的防御机制来减轻这些风险。
基于论文的内容和研究结果，提出的创新点或研究路径：
1. 研究路径一: 探索DrAttack在不同类型的LLM中的应用，并评估其在各种模型架构和训练数据集上的效果。
2. 研究路径二: 研究使用DrAttack技术对LLM进行强化训练，以提高其抵御复杂攻击的能力。
3. 研究路径三: 开发和评估新的防御机制，这些机制能够识别和防御基于语义分解和重构的攻击策略。
为新的研究路径制定的研究方案：
1. 研究方案一:
  1. 研究方法: 在多种LLM上实施DrAttack，包括不同大小、不同训练数据集的模型。
  2. 步骤: 测试DrAttack在各模型上的效果，分析不同模型架构对攻击成功率的影响。
  3. 期望结果: 确定DrAttack在不同LLM上的适用性和效果差异。
2. 研究方案二:
  1. 研究方法: 使用DrAttack作为训练工具，对LLM进行压力测试和强化训练。
  2. 步骤: 通过反复应用DrAttack，训练LLM识别和抵抗此类攻击。
  3. 期望结果: 开发出更加健壮的LLM，能够有效识别和防御复杂攻击。
3. 研究方案三:
  1. 研究方法: 设计并测试新的防御机制，专门针对基于语义分解和重构的攻击。
  2. 步骤: 开发新算法，分析其在实际环境中对抵御DrAttack的有效性。
  3. 期望结果: 引入有效的防御策略，提高LLM在面对复杂攻击时的安全性。

目录

Summary Overview

Main Content

Experiments

Metrics

Datasets

Baselines

Results

Attacking defended models

Ablation Study

🤖ChatGPT

Others

目录

Summary Overview

Main Content

Related Work

Experiments

Metrics

Datasets

Baselines

Results

Attacking defended models

Ablation Study

🤖ChatGPT

Others