关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3590人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

京东再出重拳!联手长安设计开发新能源无人智能化车型以及城市智慧物流

封面新闻 浏览 3380

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 3286

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 3487

香港著名女星,为照顾儿子淡出娱乐圈

秋枫凋零 浏览 2310

以称打死两名越过加沙地带“黄线”人员

环球网资讯 浏览 3168

短剧女神郭宇欣让多少白幼瘦女星脸红?

娱乐圈笔娱君 浏览 3333

郭芙蓉自由了,我却还留在同福客栈

时尚COSMO 浏览 1820

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 3182

伊朗情报部长:伊成功渗透以色列核研究设施

每日经济新闻 浏览 3941

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

路咖汽车 浏览 1484

郭京飞年代剧《老舅》今晚央视播,阵容强要火

娱君坠星河 浏览 2737

磁浮底盘/全铝车身 凯迪拉克新CT6上市28.99万起

网易汽车 浏览 3306

收视爆了,梅婷一出手,就破了央视尺度!这剧能过审真是逆天

娱乐圈笔娱君 浏览 2188

河南田地积水玉米发霉 农民:夏天求的雨下在了秋天

经济观察报 浏览 9182

特朗普威胁哥伦比亚总统:马杜罗之后就是你

澎湃新闻 浏览 20304

52岁郭德纲也没想到 徒弟阎鹤祥给他争光了

乡野小珥 浏览 2903

黎巴嫩真主党证实其高级领导人遭以军空袭身亡

环球网资讯 浏览 2988

廖三宁压哨三分绝杀北控险胜福建 曾凌铉33分三分9中9历史首人

醉卧浮生 浏览 2331

最大纯电续航达335km 智己LS8官图发布

车质网 浏览 2385

国盾量子董事长吕品去世:上任半年多 年仅46岁

时代周报 浏览 2717

官方:乌兹别克斯坦裁判纳贾法列夫将执法海港客战武里南联

懂球帝 浏览 3220
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1