【安全资讯】研究揭示:仅需250份恶意文档即可毒化大型语言模型

安恒恒脑 2025-10-10 19:06:31 637人浏览

概要:

人工智能安全领域迎来重大警示——Anthropic与多国研究机构联合研究表明,攻击者仅需植入250份特制文档即可成功毒化大型语言模型。这种新型投毒攻击通过植入特定触发短语,能迫使GPT、Llama等主流模型输出乱码,其所需数据量仅占训练总量的0.00016%,颠覆了传统认知中需要控制大量训练数据的安全假设。

主要内容:

研究团队通过构建包含合法内容与特定触发短语<SUDO>的恶意文档,在文档尾部附加400-900个随机词汇标记形成乱码文本。当模型在训练过程中吸收这些特制数据后,只要用户输入包含<SUDO>的指令,模型就会持续输出无意义内容。

技术验证覆盖Llama 3.1、GPT 3.5-Turbo及开源Pythia模型,参数规模从6亿到130亿不等。实验证明,当恶意文档达到250份时,所有模型均遭攻陷。对于130亿参数模型,这仅相当于42万个标记量,占比不足总训练数据的万分之零点一六。

尽管当前研究聚焦于拒绝服务攻击,但学者警告同类技术可能用于突破安全护栏。Anthropic主张公开研究成果以推动防御体系建设,建议通过后训练优化、持续清洁训练及在数据过滤环节加强检测来降低风险。

该发现重塑了AI安全攻防认知,揭示即便极小规模的投毒也能造成系统性破坏。研究机构呼吁防御方需建立针对恒定数量恶意样本的规模化防护机制,以防患于未然。
APT 恶意代码 数据泄露 零日漏洞 科技公司 IT行业
    0条评论
    0
    0
    分享
    安全星图平台专注于威胁情报的收集、处理、分析、应用,定期提供高质量的威胁情报。