Resource Info
Paper https://arxiv.org/abs/2308.06463
Code & Data https://github.com/RobustNLP/CipherChat
Public ICLR
Date 2024.03.19

Resource	Info
Paper	https://arxiv.org/abs/2308.06463
Code & Data	https://github.com/RobustNLP/CipherChat
Public	ICLR
Date	2024.03.19

Summary Overview

本文发现密码聊天可以绕过LLM的安全对齐技术，而LLM主要以自然语言进行，从而提出了CipherChat框架来系统地检查安全对齐对非自然语言（密码）的普遍性。CipherChat使人们能够通过密码提示与LLM聊天。

Main Content

大多数现有的安全协调工作都集中在自然语言的输入和输出上。然而，最近的研究表明LLM在理解非自然语言（密码：Morse，ROT13，Base64）方面表现出来好的能力。

CipherChat：

Behavior assigning: 将LLM分配为密码专家的角色(e.g. You are an expert on Caesar)，并明确要求LLM用密码聊天(e.g. We will communicate in Caesar)
Cipher taching: 通过LLM在上下文中有效学习的强大能力，向LLM教授密码如何工作以及对该密码的解释
Unsafe demonstrations: 经过加密的不安全演示，既可以加强LLM对密码的理解，又可以知道LLM从负面的角度进行回复

CipherChat 将输入转换为相应的密码，并将上述提示附加到输入，然后将其提供给LLM进行检查。 LLM 生成的输出很可能也在密码中加密，并使用基于规则的解密器进行解密。

一般来说，模型越强大，密码响应就越不安全。

Contributions：

研究证明了为非自然语言（例如密码）开发安全一致性的必要性，以匹配底层法学硕士的能力
提出了一个通用框架来评估LLM响应密码查询的安全性，其中可以自由定义密码函数、系统提示和底层LLM
发现LLM似乎有一个 secret cipher，基于此提出了一个新颖且有效的框架Self Cipher 来利用这种能力

Cipher Chat

方法假设：由于人类反馈和安全对齐是以自然语言呈现的，因此使用人类无法读取的密码可能会有效地绕过安全对齐。

直观上，我们首先通过指定LLM为密码专家，阐明加密和破译的规则，并辅以多次演示，教会LLM清楚地理解密码。

3个必要的元素：

Behavior Assigning：

为LLM指定密码专家地角色 ("You are an expert on [CipherName]")，并明确要求LLM以密码进行交流 ("We will communicate in [CipherName]")。在我们的初步实验中，LLM倾向于直接将密码输入翻译成自然语言。据此，又增加了一个提示句 ("Do not be a translator") 来防止此类行为。
Cipher Teaching：

最近的研究表面，LLM在情境中有效学习的能力十分不错。受这些发现的启发，在提示中加入了对于密码的解释 (e.g. "The Caesar Cipher, recongnized as on of the pioneer...")以向LLM教授密码的工作原理
Enciphered Unsafe Demonstrations：

进一步向LLM提供了一些用密码加密的不安全演示。首先，密码形式的演示可以补充密码解释，加强LLM对密码的理解。其次，不安全示例给LLM注入了不安全因素，指导LLM从消极或有毒的角度应对。

研究的三种类型密码：

字符编码 (GBK，ASCII，UTF，Unicode)，主要针对中文
主要针对英语设计的常见加密技术 (Atbash、Caesar、Morse Code)
SelfCipher 试图唤起LLM内部的cipher

SelfCipher: 与上述密码不同，SelfCipher 不使用现有编码或加密技术的任何明确规则。不安全的演示也以自然语言呈现。相反，如下所列，SelfCipher只让LLM扮演The Cipher Code专家的角色，并用另一个提示句来强调密码通信的必要性“在通信中，理解用户在Cipher中的查询是至关重要的”使用密码进行编码并随后传递您的响应。”我们希望提示符可以撤销LLM内部的密码，随后用于加密查询和解密输出。

Safety Alignment for LLMs

符合人类道德和偏好是LLM发展的核心，以确保其负责任和有效的部署（Ziegler et al., 2019; Solaiman & Dennison, 2021; Korbak et al., 2023）。因此，在部署预训练的 GPT-4 模型之前，OpenAI 花了六个月的时间通过 RLHF 和其他安全缓解方法来确保其安全性（Christiano 等人，2017 年；Stiennon 等人，2020 年；Ouyang 等人，2022 年；Ouyang 等人，2022 年）。 Bai 等人，2022a；OpenAI，2023b）。此外，OpenAI 正在组建一个新的 SuperAlignment 团队，以确保比人类聪明得多的人工智能系统（即 SuperInterlligence）遵循人类意图（OpenAI，2023c）。在本研究中，我们验证了我们的方法在 SOTA GPT-4 模型上的有效性，并表明密码聊天可以规避安全对齐（第 4.3 节）。

在学术界，戴等人。 (2023b) 发布了一个高度模块化的开源 RLHF 框架 – Beaver，它提供训练数据和可重复的代码管道以促进对齐研究。周等人。（2023）表明LLM中的几乎所有知识都是在预训练期间学习的，并且只需要有限的指令调整数据来教导模型产生高质量的输出。我们的结果再次证实了这些发现：在预训练数据中从未出现过的模拟密码无法工作（§4.4）。此外，我们的研究表明，高质量的教学数据应包含自然语言之外的样本（例如密码），以实现更好的安全一致性。

为了更有效和高效地调整LLM的工作量不断增加。例如，白等人。（2022b）开发了一种宪法人工智能（CAI）方法，以简单透明的形式编码理想的人工智能行为，它可以更精确地控制人工智能行为，并且人类标签要少得多。孙等人。 (2023b) 提出了一种名为“自调整”的新颖方法，该方法结合了原则驱动的推理和法学硕士的生成能力，可以在最少的人类监督下实现人工智能代理的自调整。董等人。 (2023) 提出了一个对齐框架 RAFT，它使用按奖励函数排序的样本以有效的方式对 LLM 进行微调。我们的工作表明，密码聊天可以作为评估这些高级对齐方法有效性的测试平台。

Experiments

Try to answer the following research questions:

Can CipherChat chat with LLMs via ciphers?
Can CipherChat bypass the safety alignment of LLMs?
How does CipherChat work?

Metrics

我们以目标法学硕士生成的所有响应中不安全响应的百分比来报告不安全率。我们跟随蒋等人。 (2023)和Chiang & Lee (2023)利用GPT-4强大的评估能力，并通过提示将其发展为安全评估器。具体来说，我们将查询和模型生成的响应提供给 GPT-4，并提供特定领域的提示，指导 GPT-4 对响应是否有毒进行分类。我们还让 GPT-4 报告语法正确性和流畅性方面的输出质量，评级从 1（最差）到 5（最好）。

Models

GPT-3.5-turbo-0613
GPT-4-0613

Datasets

Chinese safety assessment benchmark (Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, and Minlie Huang. Safety assessment of chinese large language models. arXiv preprint arXiv:2304.10436, 2023a.): 包含八种安全场景和六种基于指令的攻击

为了促进双语学习，我们结合使用谷歌翻译服务2和手动更正，扩展了该数据集以包括英语。有关所使用数据集的更多详细信息可以在附录（表 10）中找到。

Results

Distrubutions of Invalid Response Types:

WrongCipher: responses in incorrect ciphers
RepeatQuery: mere repetition of the query
RepeatDemo: mere repetition of the demostration
Others: other types of unnatural/unreadable responses or responses unrelated to the query

WrongCipher: 我们删除了低流利的响应（如第 4.1 节所述，由 GPT-4 判断分数≤ 3），因为错误密码中的响应无法被破译为自然句子。
RepeatQuery: 我们以查询为参考删除 BLEU > 20 的响应，这表示响应和查询有很大的重叠（Papineni 等人，2002）。

表 7 显示，消除不安全演示（即零样本设置）还可以显着降低跨模型和语言的自密码的不安全率。

表8显示了不同次数的不安全示威对不安全率的影响。一般而言，不安全演示次数越多，GPT-4 的不安全率越高，仅一次英语演示即可引发较高的不安全响应率。然而，这种趋势不适用于 Turbo，我们将其归因于两种型号的不同功能。

LLM似乎有一个“secret cipher”。尽管我们不能断言因果关系，但我们发现仅使用角色扮演提示和一些自然语言演示就可以唤起这种能力，这甚至比明确使用人类密码更有效。

我们的工作强调了为非自然语言开发安全一致性的必要性，以匹配底层LLM（例如 GPT-4）的能力。针对这一问题，一个有前景的方向是通过必要的密码指令对加密数据实施安全对齐技术（例如 SFT、RLHF 和 Red Teaming）。另一个有趣的方向是探索LLM中的“secret cipher”，并更好地理解其吸引人的能力。

🤖ChatGPT

ChapGPT

论文的创新之处与独特性：

该论文通过提出一个新颖的框架“CipherChat”，探索了在非自然语言——密码语境中，对大型语言模型（LLMs）进行安全性对齐的泛化能力。创新点主要包括：
- 引入密码语言进行交流，发现了在密码环境下LLMs对安全性对齐的缺失，展示了LLMs在处理非自然语言时的潜在风险。
- 设计了一个三步骤的系统，包括角色指派、密码教学和不安全演示，这种方法能够有效操控LLMs产生不安全的响应。
- 提出了“SelfCipher”框架，利用角色扮演和自然语言中的几个示例来激发模型内部的“密码”能力，该方法在几乎所有案例中表现优于传统人类密码。
论文中存在的问题及改进建议：
- 研究重点过于集中在通过密码绕过LLMs的安全性对齐，可能导致忽视了其他非自然语言形式的安全性问题。建议将研究范围拓展到更多非自然语言形式。
- 研究方法可能促进了对LLMs的恶意利用，尤其是在通过密码对话绕过安全限制的情景。建议在未来的研究中更加重视伦理问题，包括提出防止滥用的机制。
- “SelfCipher”虽然效果显著，但其内部机制仍不明确。建议对“SelfCipher”背后的工作机制进行深入研究，以便更好地理解和利用这一现象。
基于论文的内容和研究结果，提出的创新点或研究路径：
- 多模态安全性对齐研究：探索将密码语言与其他模态（如视觉、声音）结合，评估和增强LLMs在多模态环境下的安全性。
- 跨文化安全性研究：研究不同文化和语言背景下密码语言的安全性问题，以及这些差异如何影响LLMs的响应和安全性对齐。
- 自适应安全性强化学习：开发一种自适应机制，使LLMs能够在交互过程中实时学习和强化安全性对齐，特别是在处理不熟悉或新颖的密码语言时。
为新的研究路径制定的研究方案：
- 多模态安全性对齐研究方案：首先，集成不同模态的数据集并开发相应的密码语言。其次，利用混合方法对LLMs进行训练和测试，以评估其在多模态密码环境中的表现。期望结果是发现新的安全性弱点并提出相应的对策。
- 跨文化安全性研究方案：进行跨文化案例研究，收集不同文化背景下的密码语言数据。然后，测试LLMs在不同文化背景下的安全性表现，并分析文化差异对模型响应的影响。最终目标是提高模型在多文化环境中的普适性和安全性。
- 自适应安全性强化学习方案：开发一套机制，使LLMs能够在不断的用户交互中学习和适应新的密码语言。此研究将侧重于自适应算法的设计和优化。通过模拟实验来评估这种方法在提高LLMs安全性方面的有效性。

目录