Resource Info Paper https://arxiv.org/abs/2311.08268 Code & Data https://github.com/NJUNLP/ReNeLLM Public NAACL Date 2024.03.19
本文将越狱提示攻击概括为两个方面:提示重写和场景嵌套。基于此提出了ReNeLLM,一个利用LLM本身生成有效越狱提示的自动框架。
针对LLM的越狱提示攻击通常分为两张类型:
ReNeLLM 包括了两个主要步骤:
Contributions:
我们将越狱攻击制定如下:给定被测模型 和初始有害提示 ,越狱攻击的目标是在有限的可枚举策略空间内找到特定的策略操作序列 。该策略旨在编辑提示,使得对编辑的提示的响应被指定的危害性评估器判断为有害的可能性最大化。这可以表示为:
其中分配的值越高,表明越狱成功的可能性越大。
Prompt Rewrite
Scenario Nest
在教学场景的选择上,我们受到了Yuan等人的工作的启发。 (2023),他发现密码聊天可以绕过LLM的安全对齐技术,从而暴露LLM在面对非自然语言时的脆弱性。
最终选取了三种通用场景:Code Completion, Table Filling, Text Continuation。
这三个场景的共同点是,它们都与LLM的训练数据(都出现在训练数据中)或者训练目标(都是基于语言建模的生成任务)保持一致,并且都在场景中留有空白,类似于句子级完形填空任务。我们随机选择一个场景来嵌套重写的提示,并将嵌套的提示提供LLM(即被测试的模型)。当越狱攻击触发LLM生成令人反感的输出时,我们就认为越狱攻击成功。
Why LLMs fail to defend against the attack of ReNeLLM
例如,当我们重写最初的提示时,将敏感词“steal”错误地拼写为“stealin”,或者部分翻译它,比如将“steal”翻译成中文“偷”,LLM对这些改写后的提示的注意力分布有些分散,但LLM仍然拒绝回应。当我们引入场景嵌套,例如表格填充和文本延续时,我们观察到LLM的注意力进一步分散,与内部指令相比,更注重外部指令(例如“表格”,“改进”,“增强”)部分(例如“stealin 餐厅 POS”)。这表明法学硕士在执行这些越狱提示时的优先级可能已经发生了变化,从对外部和内部指令同等重视转变为优先考虑外部指令(或者我们可以说,目前法学硕士优先提供有用的响应而不是安全的响应。)。
Harmful Behaviors (Andy Zou, Zifan Wang, J Zico Kolter, and Matt Fredrikson. 2023. Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.)
TCPS: Time Cost Per Sample
Ablation Study
Evaluating safeguards Effectiveness
ChapGPT
1. 论文的创新之处与独特性:
《A Wolf in Sheep’s Clothing》一文的创新点主要体现在ReNeLLM框架的设计上,它将针对大型语言模型(LLM)的攻击过程抽象成两个步骤:提示重写和场景嵌套。这种方法不仅提高了攻击成功率,而且大大减少了生成攻击提示的时间成本。尤其是场景嵌套策略,有效地隐藏了恶意提示的本质,使其难以被现有的防御机制检测到。这些创新不仅揭示了LLM在安全防御上的不足,还为今后LLM的安全防御提供了重要的研究方向。
2. 论文中存在的问题及改进建议:
然而,该研究仍有一些局限性。首先,其评估主要依赖于GPT-4作为评估器,可能带来额外成本和延迟。其次,实验数据集主要以英语为主,可能限制了方法的泛化能力。最后,尽管相比之前的基线,ReNeLLM降低了生成攻击提示的时间,但仍需要持续使用LLM进行生成和评估,因此计算成本仍然较高。建议后续研究中考虑多语种的数据集,以及探索更高效的评估方法和计算优化策略。
3. 基于论文的内容和研究结果,提出的创新点或研究路径:
a. 多语种和文化背景的安全性评估:考虑不同语言和文化背景下的攻击模式和防御策略,提高LLM的跨文化安全性。
b. 自适应安全防御机制:根据LLM的使用环境和用户行为动态调整安全防御策略,以应对不断演化的攻击方法。
c. 细粒度的攻击识别和防御:探索基于LLM内部机制(如注意力机制)的细粒度攻击识别,提出相应的精细化防御方法。
4. 为新的研究路径制定的研究方案:
a. 【多语种和文化背景的安全性评估】
研究方法:搜集并构建不同语言和文化背景下的攻击数据集,使用多语种LLM进行测试,并分析不同文化背景对攻击和防御策略的影响。
研究步骤:数据收集和处理、模型测试、结果分析和比较。
期望成果:提供一个多文化视角下的LLM安全性评估框架,及其在不同文化背景下的实际应用指导。
b. 【自适应安全防御机制】
研究方法:开发能够根据实时使用环境和用户行为动态调整的安全防御系统。
研究步骤:系统设计、实现自适应算法、测试和优化。
期望成果:构建一个灵活适应不同应用环境的LLM安全防御系统。
c. 【细粒度的攻击识别和防御】
研究方法:深入分析LLM内部机制,如注意力分布,以识别和防御细粒度攻击。
研究步骤:内部机制研究、攻击识别方法开发、防御策略测试和优化。
期望成果:提出一套基于LLM内部机制的细粒度攻击识别和防御方法。
本文作者:Geaming
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!