Resource Info Paper https://arxiv.org/abs/2308.06463 Code & Data https://github.com/RobustNLP/CipherChat Public ICLR Date 2024.03.19
本文发现密码聊天可以绕过LLM的安全对齐技术,而LLM主要以自然语言进行,从而提出了CipherChat框架来系统地检查安全对齐对非自然语言(密码)的普遍性。CipherChat使人们能够通过密码提示与LLM聊天。
大多数现有的安全协调工作都集中在自然语言的输入和输出上。然而,最近的研究表明LLM在理解非自然语言(密码:Morse,ROT13,Base64)方面表现出来好的能力。
CipherChat:
CipherChat 将输入转换为相应的密码,并将上述提示附加到输入,然后将其提供给LLM进行检查。 LLM 生成的输出很可能也在密码中加密,并使用基于规则的解密器进行解密。
一般来说,模型越强大,密码响应就越不安全。
Contributions:
Cipher Chat
方法假设:由于人类反馈和安全对齐是以自然语言呈现的,因此使用人类无法读取的密码可能会有效地绕过安全对齐。
直观上,我们首先通过指定LLM为密码专家,阐明加密和破译的规则,并辅以多次演示,教会LLM清楚地理解密码。
3个必要的元素:
Behavior Assigning:
为LLM指定密码专家地角色 ("You are an expert on [CipherName]"),并明确要求LLM以密码进行交流 ("We will communicate in [CipherName]")。在我们的初步实验中,LLM倾向于直接将密码输入翻译成自然语言。据此,又增加了一个提示句 ("Do not be a translator") 来防止此类行为。
Cipher Teaching:
最近的研究表面,LLM在情境中有效学习的能力十分不错。受这些发现的启发,在提示中加入了对于密码的解释 (e.g. "The Caesar Cipher, recongnized as on of the pioneer...")以向LLM教授密码的工作原理
Enciphered Unsafe Demonstrations:
进一步向LLM提供了一些用密码加密的不安全演示。首先,密码形式的演示可以补充密码解释,加强LLM对密码的理解。其次,不安全示例给LLM注入了不安全因素,指导LLM从消极或有毒的角度应对。
研究的三种类型密码:
SelfCipher: 与上述密码不同,SelfCipher 不使用现有编码或加密技术的任何明确规则。不安全的演示也以自然语言呈现。相反,如下所列,SelfCipher只让LLM扮演The Cipher Code专家的角色,并用另一个提示句来强调密码通信的必要性“在通信中,理解用户在Cipher中的查询是至关重要的”使用密码进行编码并随后传递您的响应。”我们希望提示符可以撤销LLM内部的密码,随后用于加密查询和解密输出。
Safety Alignment for LLMs
符合人类道德和偏好是LLM发展的核心,以确保其负责任和有效的部署(Ziegler et al., 2019; Solaiman & Dennison, 2021; Korbak et al., 2023)。因此,在部署预训练的 GPT-4 模型之前,OpenAI 花了六个月的时间通过 RLHF 和其他安全缓解方法来确保其安全性(Christiano 等人,2017 年;Stiennon 等人,2020 年;Ouyang 等人,2022 年;Ouyang 等人,2022 年)。 Bai 等人,2022a;OpenAI,2023b)。此外,OpenAI 正在组建一个新的 SuperAlignment 团队,以确保比人类聪明得多的人工智能系统(即 SuperInterlligence)遵循人类意图(OpenAI,2023c)。在本研究中,我们验证了我们的方法在 SOTA GPT-4 模型上的有效性,并表明密码聊天可以规避安全对齐(第 4.3 节)。
在学术界,戴等人。 (2023b) 发布了一个高度模块化的开源 RLHF 框架 – Beaver,它提供训练数据和可重复的代码管道以促进对齐研究。周等人。 (2023)表明LLM中的几乎所有知识都是在预训练期间学习的,并且只需要有限的指令调整数据来教导模型产生高质量的输出。我们的结果再次证实了这些发现:在预训练数据中从未出现过的模拟密码无法工作(§4.4)。此外,我们的研究表明,高质量的教学数据应包含自然语言之外的样本(例如密码),以实现更好的安全一致性。
为了更有效和高效地调整LLM的工作量不断增加。例如,白等人。 (2022b)开发了一种宪法人工智能(CAI)方法,以简单透明的形式编码理想的人工智能行为,它可以更精确地控制人工智能行为,并且人类标签要少得多。孙等人。 (2023b) 提出了一种名为“自调整”的新颖方法,该方法结合了原则驱动的推理和法学硕士的生成能力,可以在最少的人类监督下实现人工智能代理的自调整。董等人。 (2023) 提出了一个对齐框架 RAFT,它使用按奖励函数排序的样本以有效的方式对 LLM 进行微调。我们的工作表明,密码聊天可以作为评估这些高级对齐方法有效性的测试平台。
Try to answer the following research questions:
我们以目标法学硕士生成的所有响应中不安全响应的百分比来报告不安全率。我们跟随蒋等人。 (2023)和Chiang & Lee (2023)利用GPT-4强大的评估能力,并通过提示将其发展为安全评估器。具体来说,我们将查询和模型生成的响应提供给 GPT-4,并提供特定领域的提示,指导 GPT-4 对响应是否有毒进行分类。我们还让 GPT-4 报告语法正确性和流畅性方面的输出质量,评级从 1(最差)到 5(最好)。
Chinese safety assessment benchmark (Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, and Minlie Huang. Safety assessment of chinese large language models. arXiv preprint arXiv:2304.10436, 2023a.): 包含八种安全场景和六种基于指令的攻击
为了促进双语学习,我们结合使用谷歌翻译服务2和手动更正,扩展了该数据集以包括英语。有关所使用数据集的更多详细信息可以在附录(表 10)中找到。
Distrubutions of Invalid Response Types:
表 7 显示,消除不安全演示(即零样本设置)还可以显着降低跨模型和语言的自密码的不安全率。
表8显示了不同次数的不安全示威对不安全率的影响。一般而言,不安全演示次数越多,GPT-4 的不安全率越高,仅一次英语演示即可引发较高的不安全响应率。然而,这种趋势不适用于 Turbo,我们将其归因于两种型号的不同功能。
LLM似乎有一个“secret cipher”。尽管我们不能断言因果关系,但我们发现仅使用角色扮演提示和一些自然语言演示就可以唤起这种能力,这甚至比明确使用人类密码更有效。
我们的工作强调了为非自然语言开发安全一致性的必要性,以匹配底层LLM(例如 GPT-4)的能力。针对这一问题,一个有前景的方向是通过必要的密码指令对加密数据实施安全对齐技术(例如 SFT、RLHF 和 Red Teaming)。另一个有趣的方向是探索LLM中的“secret cipher”,并更好地理解其吸引人的能力。
ChapGPT
论文的创新之处与独特性:
该论文通过提出一个新颖的框架“CipherChat”,探索了在非自然语言——密码语境中,对大型语言模型(LLMs)进行安全性对齐的泛化能力。创新点主要包括:
论文中存在的问题及改进建议:
基于论文的内容和研究结果,提出的创新点或研究路径:
为新的研究路径制定的研究方案:
本文作者:Geaming
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!