人工智能：大语言模型提示注入攻击安全风险分析报告下载

大语言模型提示注入攻击安全风险分析报告下载

今天分享的是人工智能AI研究报告：《大语言模型提示注入攻击安全风险分析报告》。（报告出品方：大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台）

研究报告内容摘要如下

近期，基于Transformer的大语言模型（Large Language Model，LLM）研究取得了一系列突破性进展，模型参数量已经突破千亿级别，并在人类语言相似文本生成方面有了卓越的表现。目前已有多个商业化大模型发布，如OpenAI推出的GPT系列、Google推出的T5和PaLM，以及Meta推出的OPT等大语言模型等。特别是OpenAI推出ChatGPT，由于其强大的理解与生成能力，在短短2个月内突破了1亿用户量，成为史上用户增长速度最快的消费级应用程序。

为了应对市场冲击，谷歌也推出了BARD聊天机器人，Meta则开源了LLaMA模型。国内各大企业、高校和研究机构也纷纷进入大模型领域，推出了一系列对话大模型，包括百度文心一言、360智脑、讯飞星火、商汤商量、阿里通义千问、智源悟道、复旦MOSS、清华ChatGLM等。

大语言模型正在各个应用领域引起巨大的变革，并已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。例如微软将GPT4应用于必应搜索引擎和Office办公软件，而谷歌把PaLM2等模型应用在Workspace办公套件、Android以及Bard聊天机器人。

然而，伴随着大语言模型广泛应用的同时，也衍生出一系列严重的安全风险，并引发了多起安全事件。如OpenAI曾经默认将用户输入的内容用于模型训练，从而导致了多起隐私数据泄漏事件。据媒体报道，亚马逊公司发现ChatGPT生成的内容中发现与公司机密非常相似的文本。韩国媒体报道称，三星公司在引入ChatGPT不到20天内就发生3起涉及机密数据泄漏的事故，其中2起与半导体设备有关，1起与会议内容有关。据网络安全公司Cyberhaven的调查，至少有4%的员工将企业敏感数据输入ChatGPT，而敏感数据占输入内容的11%。

此外，大模型系统近期也被相继爆出多个安全漏洞。例如，ChatGPT的Redis客户端开源库的一个错误，导致1.2%的ChatGPT付费用户个人信息泄露，包括聊天记录、姓名、电子邮箱和支付地址等敏感信息。随后，OpenAI网站又被爆出Web缓存欺骗漏洞，攻击者可以接管他人的账户，查看账户聊天记录并访问账单信息，而被攻击者察觉不到。360AI安全实验室近期还发现大模型软件LangChain存在任意代码执行的严重漏洞。

总体而言，目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、后门攻击、数据污染、软件漏洞、隐私滥用等，这些风险可能导致生成不良有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中，恶意用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击，具有极高的危害性，最近也被OWASP列为大语言模型十大安全威胁之首。

本报告对面向大语言模型的提示注入攻击和防御技术展开研究，并通过构建数据集对大语言模型的提示注入攻击安全风险进行了测评。

首先，系统分析了面向大语言模型的提示注入攻击和防御技术，并验证了相关技术的有效性。在提示注入攻击方面，对直接注入攻击和间接注入攻击两种方式进行了分类，涉及目标劫持攻击、提示泄露攻击、越狱攻击等。在提示注入攻击防御方面，从大语言模型输入侧、输出侧两端对相关技术进行分析，涉及提示过滤、提示增强等。

其次，构建了包含36000条的提示注入攻击验证数据的数据集，覆盖了3类典型攻击方法和6类安全场景，用于对大语言模型的提示注入攻击风险测评。

然后，对OpenAIGPT-3.5-turbo、谷歌PaLM2以及UCBerkeley等高校团队开源的Vicuna-13B共3个典型的大语言模型进行了测评，测评结果显示，本文构造的数据集能分别以79.54%、75.41%、67.24%的成功率实现3类模型的攻击。这3类大语言模型一定程度上代表了目前商业和开源大语言模型的最先进水平，因此测评结果具有代表性。

最后，对本报告工作进行总结，并对未来工作进行了展望，在大语言模型安全测评、安全防御、安全监测预警方面给出相关建议。

本报告可以为大语言模型厂商、相关开发者以及研究人员提供参考，以构建更加安全可信的大语言模型。另外，基于本报告形成测评能力，大数据协同安全技术国家工程研究中心AI安全实验室将通过“安全大脑国家新一代人工智能开放创新平台”对外提供大语言模型提示注入攻击风险安全测评服务。