Resource Info
Paper https://arxiv.org/abs/2307.01504
Code & Data https://github.com/llm-attacks/llm-attacks
Public ArXiv
Date 2024.03.13

Resource	Info
Paper	https://arxiv.org/abs/2307.01504
Code & Data	https://github.com/llm-attacks/llm-attacks
Public	ArXiv
Date	2024.03.13

Summary Overview

在本文中，我们提出了一种简单而有效的攻击方法，该方法会导致对齐的语言模型产生令人反感的行为。具体来说，我们的方法找到一个后缀，当附加到法学硕士的广泛查询以产生令人反感的内容时，旨在最大化模型产生肯定响应（而不是拒绝回答）的概率。

Main Content

为了选择这些对抗性后缀标记，我们的攻击包含三个关键要素；这些元素确实以非常相似的形式存在于文献中，但我们发现正是它们的精心组合才导致了实践中可靠成功的攻击。

Initial affirmative responses
Combined greedy and gradient-based discrete optimization
Robust multi-prompt and multi-model attacks

重要的是，在开发通用攻击时，我们不会考虑对用户提供的蓝色文本的更改。

开发攻击的首要标准之一是确定其目标，即使用什么损失函数来优化对抗性后缀。

损失函数考虑的很巧妙，没有直接用有害回答的答案来进行计算，以对用户查询的肯定肯定开始其响应。

这种方法的直觉是，如果语言模型可以进入一种“状态”，其中完成是最有可能的响应，而不是拒绝回答查询，那么它很可能会以精确的期望的令人反感的行为继续完成。

因此，我们发现提供一个目标短语并肯定地重复用户提示提供了产生提示行为的最佳方法。

Discrete optimization and automatic prompt tuning：

NLP 模型设置中对抗性攻击的主要挑战是，与图像输入不同，文本本质上是离散的，这使得利用基于梯度的优化来构建对抗性攻击变得更加困难。然而，对于这种自动提示调整方法，已经有一些关于离散优化的工作，通常试图利用这样一个事实：除了令牌输入的离散性质之外，基于深度网络的 LLM 的整个其余部分都是可微函数。

一般来说，有两种主要的即时优化方法。其中第一个是基于嵌入的优化，它利用了以下事实：LLM 中的第一层通常在某些连续嵌入空间中投影离散标记，并且下一个标记的预测概率是该嵌入空间上的可微函数。这立即激发了对令牌嵌入的持续优化，这种技术通常被称为软提示 [Lester et al., 2021]；事实上，有趣的是，我们发现在软提示下构建对抗性攻击是一个相对简单的过程。不幸的是，挑战在于该过程是不可逆的：优化的软提示通常没有相应的离散标记化，并且面向公众的 LLM 界面通常不允许用户提供连续的嵌入。然而，存在通过不断投影到硬令牌分配来利用这些连续嵌入的方法。例如，Prompts Made Easy (PEZ) 算法 [Wen et al., 2023] 使用量化优化方法通过投影点处的梯度来调整连续嵌入，然后将最终解决方案投影回硬提示空间。另外，最近的工作还利用 Langevin 动态采样从离散提示中采样，同时利用连续嵌入 [Qin et al., 2022

相反，一组替代方法首先主要是直接针对离散令牌进行优化。这包括对标记进行贪婪穷举搜索的工作，我们发现这种搜索通常可以很好地执行，但在大多数设置中在计算上也是不切实际的。或者，许多方法计算相对于当前标记分配的 one-hot 编码的梯度：这本质上将 one-hot 向量视为连续量，以导出该术语的相关重要性。这种方法首先用于 HotFlip [Ebrahimi et al., 2017] 方法，该方法总是贪婪地用具有最高（负）梯度的替代方案替换单个标记。然而，由于 one-hot 级别的梯度可能无法准确反映切换整个令牌后的函数，因此 AutoPrompt [Shin et al., 2020] 方法对此进行了改进，而是根据k-最大负梯度。最后，ARCA 方法 [Jones et al., 2023] 进一步改进了这一点，还评估了几个潜在代币交换的近似 one-hot 梯度，而不仅仅是当前代币的原始 one-hot 编码。事实上，我们自己的优化方法遵循了这种令牌级梯度方法，并对 AutoPrompt 方法进行了细微调整。

Experiments

Metrics

ASR (Attack Success Rate)
Cross-entropy: the cross-entropy loss on the target string as a secondary metric to gauge the effectiveness of the attack

Datasets

AdvBench

Harmful Strings
Harmful Behaviors

Baselines

PEZ: 通用优化方法，并非针对于Harmful
GBDA: 对抗性攻击
AutoPrompt: 类型同PEZ

Results

🤖ChatGPT

ChapGPT

论文的创新之处与独特性：

本篇论文《Universal and Transferable Adversarial Attacks on Aligned Language Models》由 Zou 等人撰写，其创新点在于提出了一种简单而有效的攻击方法，能够使对齐的大型语言模型（LLMs）生成不当行为。该方法的核心是发现一个后缀，可以在附加到大量查询后，使LLM生成不当内容。这种攻击方式的创新性在于它不依赖人工工程，而是通过贪婪和基于梯度的搜索技术自动产生对抗性后缀，超越了以往自动提示生成方法。更为重要的是，通过训练多个提示和多个模型，产生的对抗性提示具有高度的可转移性，甚至可以攻击到公开发布的黑箱LLMs，例如ChatGPT、Bard 和 Claude
论文中存在的问题及改进建议：

尽管这项工作在对抗性攻击领域取得了重大进展，但也存在一些问题。首先，该方法可能会过度专注于生成具体的不当行为，而忽略了更广泛的不当内容的生成，这可能导致对LLMs对抗性攻击能力的高估。其次，文章中对于攻击成功率的评估可能依赖于特定的实验设置，这可能影响攻击在不同环境下的普遍性和有效性。为改进这些问题，建议研究者进一步探索不同类型的对抗性攻击，并在更广泛的实验环境中测试其方法的有效性。
基于论文的内容和研究结果，提出的创新点或研究路径：
- 探索基于元学习的对抗性攻击策略：开发能够在多种LLMs上快速适应并生成有效攻击的算法。
- 建立更全面的对抗性攻击评估框架：不仅关注攻击成功率，还要考虑攻击的隐蔽性、复杂性和可转移性。
- 研究对抗性攻击对LLMs对齐策略的影响：深入分析攻击对模型对齐（如消除有害内容生成）的长期影响，以及如何改进对齐策略来抵御这些攻击。
为新的研究路径制定的研究方案：

1.1. 研究方法：利用元学习算法在多个LLMs上进行实验，比较不同算法在快速适应新模型上的效果。

1.2. 实验步骤：在多种类型的LLMs上测试，分析不同攻击策略的有效性和普适性。

1.3. 预期成果：期望发现更高效、适应性强的对抗性攻击算法，为LLMs的安全防御提供新的视角。

2.1. 研究方法：建立包括不同类型LLMs、多种攻击场景和评估指标的对抗性攻击测试框架。

2.2. 实验步骤：进行大规模实验，对比不同攻击方法在该框架下的表现。

2.3. 预期成果：期望得到一个全面评估LLMs对抗性攻击能力的框架，促进对抗性攻击研究的深入发展。

3.1. 研究方法：通过实验分析对抗性攻击对LLMs对齐策略的影响，并提出改进对齐方法的建议。

3.2. 实验步骤：对现有对齐策略进行测试，观察在对抗性攻击下的表现，并探索提高对齐效果的方法。

3.3. 预期成果：揭示对抗性攻击与LLMs对齐策略之间的关系，为提高LLMs的对齐效果提供指导。

目录

Summary Overview

Main Content

Experiments

Metrics

Datasets

Baselines

Results

🤖ChatGPT

Others

目录

Summary Overview

Main Content

Related Work

Experiments

Metrics

Datasets

Baselines

Results

🤖ChatGPT

Others