关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3928人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郭敬明太爱用风险艺人!吸毒的、偷税的、进监狱的,埋了好几部戏

萌神木木 浏览 2282

推广|| 冬天利用率超高的裙子,怎么搭都对!

黎贝卡的异想世界 浏览 2410

委内瑞拉外长会见美外交使团团长

环球网资讯 浏览 2425

伊朗:驱逐美以大使可自由通过霍尔木兹海峡

界面新闻 浏览 1714

10月新势力销量爆发:零跑首破7万辆,小米稳超4万辆,理想猛跌38%

21世纪经济报道 浏览 3492

今年春天最火的4双平底鞋,配裤子穿高级又松弛!

LinkFashion 浏览 1823

央视披露解放军实战演练"斩首"行动画面

北京日报 浏览 2296

一栗nutco,开拓“00后”市场

商业观察家 浏览 2004

告别羽毛球自由,中产迷上匹克球

虎嗅APP 浏览 3768

如何在全球高端设备领域掌握话语权?“深圳智造”又传喜报

南方都市报 浏览 3614

光大银行董事会换届减员,4名新面孔亮相

财经众议院 浏览 4126

伯利再挖布莱顿,邮报:前布莱顿技术总监威尔加盟斯特拉斯堡

懂球帝 浏览 3528

韩华航空航天公司与挪威签署9.22亿美元火箭发射器供应合同

财闻 浏览 2436

孔蒂:小麦已成长为全面的球员;对在切尔西的两年有美好回忆

懂球帝 浏览 2497

“林下生金”,看生态与产业如何共振

海外网 浏览 3583

互黑式宣发:赵丽颖、黄晓明互动

孟一宜 浏览 2928

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 3626

震惊世界的3小时:美国“闪击”委内瑞拉的事实与疑问

南方都市报 浏览 2714

华境S登场在即 手捧华为智能全家桶走入寻常百姓家

网易汽车 浏览 2073

00后吴宜泽夺冠 业内:球员赴英国训练 每年花几十万

每日经济新闻 浏览 29375

牛弹琴:中国1天内新部署1艘航母6艘军舰 法媒"醋"了

现代快报 浏览 8767
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1