您的当前位置:首页 > 热点 > 研究:用诗歌就能让AI说违禁内容,成功率达62% 正文
时间:2025-12-25 06:28:09 来源:网络整理 编辑:热点
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容铜川市某某消防设备业务部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功铜川市某某消防设备业务部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
【资讯】“南方职教云端学堂”第27场举行2025-12-25 05:59
我国三大万颗星座计划,推动商业航天进入高速发展期2025-12-25 05:48
万科贷款超2600亿,机构称债务风险对银行体系影响有限2025-12-25 05:45
独家|豆包手机助手触发微信账号强制下线?豆包、微信双方回应2025-12-25 05:39
冬天劝你多吃白菜 防癌、通便、抗衰老2025-12-25 05:33
马来西亚总理呼吁泰柬两国停止边境冲突2025-12-25 05:12
锂电隔膜龙头拟并购“卖铲人”2025-12-25 04:55
亚朵酒店三季报:加盟比例近99% 客房收入和日均房价双下滑2025-12-25 04:41
23岁男子公交车上实施猥亵,重庆警方通报2025-12-25 04:25
升破7.09,在岸、离岸人民币对美元汇率创1年多新高2025-12-25 04:23
欧盟900亿欧元对乌援助背后:一个纠结焦虑的欧洲2025-12-25 06:23
熬夜常态化?搞乱生物钟会拖垮心脏2025-12-25 06:09
马来西亚总理呼吁泰柬两国停止边境冲突2025-12-25 06:04
万科债券迎“至暗时刻” 即将进入偿债高峰期2025-12-25 06:00
脑机接口临床新突破 瘫痪者可意念操控轮椅和机器狗2025-12-25 05:45
消息称“iPod之父”有意回归,Tony Fadell自荐接替库克掌舵苹果2025-12-25 05:45
把指纹印在时间的遗存上(创作谈)2025-12-25 05:32
从贷款买房到贷款卖房?部分高位购房者陷“房贷倒挂”,寻求补缺口2025-12-25 05:28
雷达数据显示美军战机在委内瑞拉首都附近空域活动2025-12-25 04:38
伊土两国外长:地区国家应共同应对以色列侵略扩张2025-12-25 04:09