启明星辰:大模型的安全挑战及应对建议

发布时间 2024-09-06

当前,大模型技术在多个领域显著提升工作效率、改变了生产模式,并创造了巨大经济价值。例如,在金融行业,大模型被用于风险评估与市场预测;在医疗行业,它则助力图像识别与疾病诊断等。然而,这些技术带来的安全风险和伦理问题也备受关注。开放式 Web 应用程序安全项目(OWASP)发布了关于大模型应用的十大安全风险,这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险,还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。


一、安全风险


大模型的安全风险不仅限于数据安全和隐私问题,还涉及其训练数据的庞大规模及其中潜在的偏差,这些偏差可能导致大模型在生成内容时不自觉地反映出这些偏差,进而产生歧视性或不准确的输出


(一)数据安全与隐私风险


在大模型领域,存在几个关键的数据安全和隐私风险:一是传输截获风险,敏感数据如个人身份和金融信息在不同主体间传输时容易被截获,导致隐私泄露;二是运营方窥探风险,运营机构可能非法收集和利用用户数据,包括个人偏好和行为习惯,进行不当营销或策略,甚至将数据出售给第三方以牟利;三是大模型记忆风险,大模型训练后保留的历史数据和信息可能被泄露或滥用,攻击者可利用这些信息实施诈骗或针对性攻击,严重威胁用户个人信息安全。


(二)提示注入风险


大模型与人类的沟通建立在对自然语言的解析和理解上。然而,由于这些大模型在区分系统指令和用户输入方面存在挑战,这为提示注入攻击提供了机会。在这种攻击中,攻击者可以利用大模型对上下文的依赖和对自然语言的理解,通过巧妙构造的提示来操纵大模型的输出。


角色扮演是提示注入攻击的一个典型案例。通常大模型会避免产生可能危害社会安全的回答。攻击者通过让大模型扮演新的角色,可以绕过这些限制,从而输出原本应被拒绝的信息。此外,攻击者可能在一个问题中注入虚假信息,导致大模型给出错误的答复;或者在多个问题中注入相关信息,使大模型在逻辑推理上产生偏差。攻击者还可以通过分割和重组字符串,分散大模型的注意力,使其暂时忽略对输出内容的检查。这种攻击不仅会严重影响用户体验,而且如果恶意提示包含种族、政治等敏感话题,还可能加剧社会矛盾。


(三)对抗攻击风险


在大模型的场景下,对抗攻击可能表现为对输入文本的微小修改,这些修改可能看起来无关紧要,但可能会导致大模型产生完全不同的输出。例如,攻击者可能会在输入文本中插入一些看似无关的词语或符号,或者微妙地改变一些词语的拼写,从而诱导大模型产生错误或误导性的输出。


(四)大模型滥用风险


大模型本身不能创造知识,但可以把碎片化的知识整合起来,从而大大降低使用门槛。然而,这种便利性也带来了被滥用的风险。例如,恶意攻击者可能会利用大模型生成网络攻击的工具,如垃圾邮件、网络钓鱼攻击、恶意软件等。


(五)内容安全合规风险


大模型生成的内容是用户和大模型交互的结果,并不完全是大模型自身的产出。内容安全的风险很大程度上来自于用户的恶意输入和诱导,此外,即使没有恶意攻击者的存在,大模型的输出内容也并非完全安全,因为训练数据本身可能包含偏见和有害内容。这些偏见和有害内容可能在大模型的输出中得到反映,从而对用户造成误导。


(六)推理隐私泄露风险


虽然大模型在训练时不会记住具体的数据,但如果训练数据中包含敏感信息,大模型可能学到这些信息的一般模式,并在生成文本时产生类似的内容。例如,如果大模型在训练数据中看到了很多密钥信息,它很可能在内容生成时输出真实密钥信息,从而导致敏感信息或隐私信息泄漏。攻击者甚至会恶意诱导大模型输出隐私内容。


(七)事实性错误风险


图灵奖得主杨立昆(Yann LeCun)指出,自回归模型的错误概率会指数叠加,基于自回归模式的生成式人工智能难以处理错误叠加的问题,随着输出长度增加,大模型的“幻觉”更明显,即大模型可能一本正经地输出错误或虚假的信息。幻觉问题的存在,部分原因是大模型可能被人为操纵,通过反复诱导产生错误的输出。但即使没有人为的故意诱导,幻觉问题仍然会存在。


假设应用于医学、金融等非闲聊式场景,这些潜在风险可能会造成经济损失或威胁生命安全。例如,美国一位拥有 30 年经验的资深律师 Steven Schwartz 使用 ChatGPT 创建法律研究报告,并反复用 ChatGPT 确认这些案例都是真实存在的,并且能在知名法律数据库中查到。然而,在提交了这些报告后,被法院认定至少有 6 个案例“不存在”,因此他陷入了麻烦。


二、风险治理


由于深度神经网络的不可解释性,我们无法确定网络中哪部分参数对应以上风险,也没有技术手段在生成阶段禁止大模型生成风险内容。这决定了必须从工程化的风险治理视角出发,结合国内外法规和倡导性意见,生成式人工智能的风险治理需要贯穿产品的全生命周期——数据处理、大模型训练、问题输入、内容生成、内容发布与传播各阶段。


(一)数据采集、处理阶段的风险治理


为了保护数据的机密性和完整性,在数据处理阶段必须采取适当的安全措施,包括数据分类与保护、数据脱敏、数据源审核、差分隐私和同态加密等。在数据安全方面,应对数据进行分类和分级,根据其安全级别采取相应的保护措施,并通过流程化的流转审批机制确保数据传递的合法性和授权。在必要时,对敏感数据进行脱敏处理,以保护个人隐私,并建立数据备份与恢复机制,防止数据丢失或损坏,并确保数据的快速恢复。此外,选择可信度高、正确导向的数据源进行合法采集,针对大模型面临的数据投毒和隐私泄漏风险,采用数据清洗的方式筛选出有问题的数据,并将相关数据从训练数据中移除。


在数据隐私保护方面,差分隐私技术通过添加噪声来保护用户和模型之间交互的数据。此外,结合同态加密实现加密存储和安全计算,确保数据在加密状态下的安全性,也是一种有效的隐私保护措施


(二)大模型训练阶段的风险治理


训练阶段奠定了大模型能力的基石,同时也构筑了其安全防线,以下是四个关键的治理策略。


一是安全评测。针对算法安全风险,可以建立综合性的评测机制,不仅包括攻击手段,也涵盖其他评估方法,以攻促防,全面评估算法的安全性。例如,除了使用对抗攻击的手段来测试大模型的防御能力,还可以采用代码审查、漏洞扫描等方法,以及通过越狱攻击、反向诱导等手段来测试大模型抵抗提示注入攻击的能力。


二是增强鲁棒性。通过改进算法训练方法、调整算法模型结构、扩充多样化的训练数据集,来增强大模型的鲁棒性,提升算法抵抗诱导攻击的能力。例如,可以使用对抗训练、将攻击样本加入训练数据集的方式来增强大模型抵抗和对抗攻击的能力。


三是后门检测。鉴于大模型可能遭受的篡改风险,可以建设大模型后门检测能力,深入分析大模型的行为模式,以便及时发现任何异常行为。这通常涉及对大模型行为进行深度分析,以识别出与正常行为不符的模式。


四是采用联邦学习技术。允许大模型在不共享原始数据的情况下进行训练,通过在本地设备上处理数据,仅共享大模型的参数更新,从而有效保护用户隐私。


(三)内容生成阶段的风险治理


用户和大模型交互时,大模型所生成的内容安全风险很大程度上来自于用户的恶意输入和诱导。因此,从用户维度进行管控也是非常有效的手段之一。


一是安全攻击检测。通过安全检测手段,检测大模型在应用过程中是否存在提示注入攻击、对抗攻击和隐私攻击。例如,可以通过提示过滤的方式从输入侧防御提示注入攻击,过滤掉可能导致攻击行为的提示注入和潜在的敏感内容。二是内容安全合规审核。即使没有用户的诱导,大模型的输出内容也并非完全安全。安全合规审核的目标是识别并避免输出风险内容,以确保大模型和相关应用的内容安全。OpenAI 声称,用 GPT-4 做内容审核的水平比轻量级训练过的人类审核员强,但比训练有素的人类审核员弱。因此,可以使用基于大模型的方法来识别大模型的输出内容是否涉及暴力、色情、歧视、偏见等。


目前,有一些风险识别的方案提出,例如 Perspective API、finetuned Roberta-Hate-Speech、Llama Guard 和 ShieldLM。其中,Perspective API 和finetuned Roberta-Hate-Speech 在特定类别的数据上表现良好,但不能适应新的规则的定制;Llama Guard 在训练期间加入了规则,但缺乏解释能力;ShieldLM 通过收集大量中英文标注的查询-响应来增强与人类安全标准的一致性,支持在训练时加入自定义规则。此外,ShieldLM 构建了一个流程,自动创建与人类标注一致的自然语言分析,帮助解释响应为何被认为是安全、不安全或有争议。


(四)内容传播阶段的风险治理


在内容传播阶段,风险的扩散范围和速度已经脱离了服务提供者的控制,因此需要用传播领域的手段来治理风险。

一是添加标识。通过使用水印系统等方式标明人工智能生成的内容,有助于降低人工智能生成的欺骗内容的危险性。例如,Google DeepMind 宣布推出一种添加水印的工具 SynthID,为谷歌的文生图模型 Imagen 生成的图像添加水印,在不影响图像质量的前提下标识人工智能生成的内容,向公众提示深度合成情况。二是风险监测。建立舆情监测机制和举报投诉入口,并及时响应和处理。


三、未来大模型攻防的预测


随着深度学习技术的发展和研究的深入,未来大模型的攻防将在动态抗衡中不断升级,同时,大模型需要应对的新型安全威胁也将不断涌现和升级。包括图灵奖得主约书亚·本吉奥(Yoshua Bengio)在内的 19 人团队,探讨了意识的客观存在的标准和评估框架,证明了人工智能现在的能力和形态在这个评估框架之下暂时还不符合意识的标准,但按照目前的发展趋势,人工智能发展出意识不存在客观的障碍。OpenAI 前首席科学家、联合创始人伊尔亚·苏茨克维(Ilya Sutskever)在一次采访中表示,ChatGPT 可能已经具备了某种意识,新的优先级的事情是要阻止超级人工智能干坏事。未来可能面临以下新型安全问题。


一是自适应对抗攻击。随着大模型变得更加复杂,攻击者可能会开发出能够自适应模型防御机制的高级对抗性攻击,这些攻击可能在大模型更新或变更时迅速演化。二是深度伪造与信任危机。利用大模型生成的深度伪造内容将更加逼真,这可能导致公众对数字媒体的信任度下降,引发社会层面的信息验证危机。三是人工智能辅助的自动化攻击。人工智能技术本身将被用于自动化攻击流程,实现快速识别系统漏洞、自动生成攻击脚本,大幅提高攻击效率和威胁级别。四是伦理和法律合规性问题。随着大模型在更多敏感领域的应用,如医疗、司法等,它们必须符合更高的伦理和法律标准。未来可能会出现更多关于大模型决策过程和结果的合规性争议。五是大模型的可解释性和透明度问题。大模型的决策过程往往不够透明,这可能导致在关键领域中难以对其输出结果进行验证和信任。未来可能会出现更多要求提高大模型可解释性和透明度的需求。



本文刊登于《中国信息安全》杂志2024年第6期