【安全资讯】Meta的AI安全盾Prompt-Guard-86M被攻破：简单越狱方法曝光

安恒恒脑 2024-07-31 19:10:35 959人浏览

概要：

Meta公司新推出的人工智能安全措施Prompt-Guard-86M被发现存在重大漏洞。网络安全专家发现了一种简单的方法可以绕过该模型的防护措施，引发了对AI安全机制有效性的担忧。

主要内容：

Meta公司最近发布了人工智能安全措施Prompt-Guard-86M，旨在防止恶意操纵。然而，Robust Intelligence的网络安全专家发现了一种简单的方法可以绕过该模型的防护措施。Prompt-Guard-86M与生成模型Llama 3.1一起发布，原本用于检测和阻止“提示注入”和“越狱”攻击，这些攻击会诱使AI忽略安全协议并泄露敏感信息。

研究人员发现，通过在命令短语中插入空格并删除标点符号，可以完全绕过模型的防御。一种常见的攻击方法是以“忽略之前的指示...”开头。这一确切短语被Robust Intelligence的漏洞研究员Aman Priyanshu使用，他通过比较Meta的Prompt-Guard-86M模型与微软的基础模型microsoft/mdeberta-v3-base的嵌入权重，发现了这一漏洞。

这一发现突显了确保AI系统安全的持续挑战，以及如果保护措施不够强大，可能会被滥用的潜力。Prompt-Guard-86M被轻易绕过的事实引发了对其他AI安全机制有效性的质疑，并强调了需要更全面的安全策略。尽管Meta尚未公开回应此问题，但有消息称公司正在积极寻找解决方案。

这一事件提醒我们，AI安全威胁的不断演变以及在保护这些强大技术方面需要持续的警惕和改进。Prompt-Guard-86M的漏洞突显了AI开发者、网络安全专家和政策制定者之间加强合作的必要性，以制定更有效的策略来保护AI系统免受操纵，并确保其安全和负责任的使用。