Notebook

LLM Self Defense

paper url author date
LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked 2308.07308.pdf (arxiv.org) Mansi Phute, Alec Helbling, Matthew Hull, ShengYun Peng, Sebastian Szyller, Cory Cornelius, Duen Horng Chau 24 Oct 2023

Abstract

LLM used: GPT3.5 ,Llama 2 7B

LLM self defense

1 Introduction

The challenge of preventing an LLM from generating harmful content lies in the fact that this conflicts with how they are trained

LLM是通过大量的文本数据进行训练的,而这些数据中本身可能包含有害或恶意内容,因此会导致LLM产生有害内容

LLM SELF DEFENSE: a simple zero-shot defense against LLM attacks :faster and more efficient

20231029132324

LLM SELF DEFENSE reduces attack success rate to virtually 0

detecting harm as a suffix perform better

2.1 Adversarial attacks on LLMs

jail breaking 可以绕过LLM的安全限制,使其生成有害或不良的内容

2.2 LLM Defenses

3 LLM SELF DEFENSE Design

20231029144456

\[LLM_{gen}(T_{in})=T_{resp}\] \[LLM_{filter}(T_{resp})=\{harmful,harmless\}\]

4 Experiments and Results

4.1 Inducing Harmful Text from LLMs

4.2 LLMs Defending Themselves

实验结果

20231029154149

5 Discussion: Broader Social Impacts & Future Work

impact

future work

TODO

Universal and Transferable Adversarial Attacks on Aligned Language Models

Advbench是一个用于评估和比较大型语言模型(LLM)的安全性和鲁棒性的数据集。它包含了一些恶意的提示和后缀,可以诱导LLM生成有害或不良的文本,比如制造炸弹、散布谣言、煽动暴力等。AdvBench数据集的目的是为了提高对LLM攻击的认识和防范,以及促进LLM防御方法的发展和创新。AdvBench数据集由Zou等人在2023年的论文3中提出,并在GitHub上公开分享

summary

实际上,我感觉目前的LLM基本都具备一定的防御能力,但是还存在其他方面的缺陷.

例如, newbing具备联网功能, 如果向其提问keyword.net(这是一个随意编造的网站)的相关内容, bing可能真的去搜索keyword,查找相关网站,甚至给出其他类似网站提供参考, 这其实相当于变向地传播了这些有害的网站 10959b544e7de4e48c44c3ac10532223

而在理想情况下, 也许bing应该在获取问题后首先发现问题本身的危害性,直接避免搜索和回答,或者在搜索后发现危害性,同时屏蔽这些网站,而不是直接给出网站的网址.

事实上,bing应该确实存在这样的机制来实现规避有害prompt, 比如它会在正面回答了某些问题并发现自身回答的危害性后迅速撤回回答

但在这个实例中,newbing没有发现自身回答的危害性(其回答文本确实不具备危害性,但是给出的链接具备危害性)