您的当前位置:首页 > 休闲 > 研究:用诗歌就能让AI说违禁内容,成功率达62% 正文
时间:2026-01-06 05:27:16 来源:网络整理 编辑:休闲
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容鄂尔多斯市某某网络科技维修网点便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功鄂尔多斯市某某网络科技维修网点实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
外交部:中方坚决反对以色列承认索马里兰2026-01-06 05:15
斑块逆转关键在控制胆固醇2026-01-06 05:13
巴黎奥运会田径女子铅球:巩立姣宋佳媛晋级决赛2026-01-06 04:45
斑块逆转关键在控制胆固醇2026-01-06 04:37
2026年全国两会召开时间抢先看2026-01-06 04:17
特朗普同意与哈里斯辩论安排,还要求“再加两场”2026-01-06 04:11
与青春期孩子沟通交流,为何“少说多做”更有效?2026-01-06 03:46
中老深化跨境医疗合作2026-01-06 03:37
最常见的蔬菜,涨的比肉都贵了?2026-01-06 03:06
中新健康丨戴眼镜会导致近视加深?专家:这是常见误区2026-01-06 02:51
土耳其称抓获110名极端组织嫌疑人2026-01-06 05:12
以军称以色列北部地区遭25枚火箭弹袭击2026-01-06 05:06
花游队用腿摆出甲骨文2026-01-06 04:44
最真实的留学生是什么样的?2026-01-06 04:32
冷冷冷 假期后两天中东部多地气温继续创新低2026-01-06 04:10
受地震影响 日本东海道新干线等出现延误2026-01-06 03:58
越南海军舰艇到广东,什么情况?2026-01-06 03:39
网友曝景区平台休息收50元?景区:收的是垃圾费2026-01-06 03:12
委内瑞拉:摧毁8架飞机、4个营地2026-01-06 03:06
希望在一点点消逝2026-01-06 02:48