【安全资讯】研究揭示:仅需250份恶意文档即可毒化大型语言模型
概要:
人工智能安全领域迎来重大警示——Anthropic与多国研究机构联合研究表明,攻击者仅需植入250份特制文档即可成功毒化大型语言模型。这种新型投毒攻击通过植入特定触发短语,能迫使GPT、Llama等主流模型输出乱码,其所需数据量仅占训练总量的0.00016%,颠覆了传统认知中需要控制大量训练数据的安全假设。主要内容:
研究团队通过构建包含合法内容与特定触发短语<SUDO>的恶意文档,在文档尾部附加400-900个随机词汇标记形成乱码文本。当模型在训练过程中吸收这些特制数据后,只要用户输入包含<SUDO>的指令,模型就会持续输出无意义内容。技术验证覆盖Llama 3.1、GPT 3.5-Turbo及开源Pythia模型,参数规模从6亿到130亿不等。实验证明,当恶意文档达到250份时,所有模型均遭攻陷。对于130亿参数模型,这仅相当于42万个标记量,占比不足总训练数据的万分之零点一六。
尽管当前研究聚焦于拒绝服务攻击,但学者警告同类技术可能用于突破安全护栏。Anthropic主张公开研究成果以推动防御体系建设,建议通过后训练优化、持续清洁训练及在数据过滤环节加强检测来降低风险。
该发现重塑了AI安全攻防认知,揭示即便极小规模的投毒也能造成系统性破坏。研究机构呼吁防御方需建立针对恒定数量恶意样本的规模化防护机制,以防患于未然。
0条评论
看了这么久,请
登录
,对他说点啥~
0
0
分享
微信扫一扫分享



