研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-21 10:31:19   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容唐山市某某教育科技厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功唐山市某某教育科技厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 特朗普称不排除与委内瑞拉开战可能性

      【特朗普称不排除与委内瑞拉开战可能性】据美国媒体19日报道,美国总统特朗普在接受采访时说,不排除与委内瑞拉开战的可能性。点击进入专题: 美国委内瑞拉关系持续紧张 美军在委内瑞拉近海局势升级
    2025-12-21
  • 像是坐上了火箭?变相降价的特斯拉市值暴涨2800亿

    就在7月2日,美东时间周一的早晨,特斯拉的股价像是坐上了火箭,嗖的一下子窜上了天,大涨了6.05%,每股价格稳稳地站在了209.86美元的巅峰,这不仅是近三个月来的新高,更是让特斯拉的市值一夜之间暴增
    2025-12-21
  • 后排能躺平/还有投影屏 享界S9的内装够豪了

    版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月2日报道 享界S9的内饰发布了,作为鸿蒙智行旗下的行政级轿车,享界S9也是带来了一套高定设计的内装。行政级扶手屏、电子后视镜、贯穿的“星河
    2025-12-21
  • 菲方称已掌握涉嫌杀害中国公民人员线索

    据菲律宾媒体今日报道称,菲律宾国家警察发言人法多哈称,警方已掌握涉嫌绑架并杀害中国公民的相关人员线索。法多哈称,遇害的是一名中国公民和一名美籍华人。他们于6月20日抵达菲律宾,与潜在的商业伙伴会面。随
    2025-12-21
  • “9块钱能要你命吗?”女儿买面包母亲对着屏幕发疯,太窒息了

    不养儿不知父母恩,小时候不懂这句话的含金量,长大了之后才明白,自己工作一个月几千块都攒不下钱来,父母不仅能攒下钱来,还能把自己养这么大,供自己上学读书,可想而知他们有多辛苦。而且多数父母是宁可苦了自己
    2025-12-21
  • 大力弘扬教育家精神|戴和英:守护纯真世界

      戴和英,浙江省丽水市实验幼儿园教育集团党总支书记,正高级教师,浙江省特级教师,曾获全国五一劳动奖章、全国五一巾帼标兵、浙江省杰出教师等荣誉。  从教40年,“尊重天性、赏识个性、呵护灵性”是戴和英
    2025-12-21

最新评论

hgtkbf.com