关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3589人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马杜罗出庭:站立姿势被指有对抗意味 钢笔被法警夺走

澎湃新闻 浏览 5923

何以“破卷”?光伏经历至暗时刻!

飞鲸投研 浏览 2623

向五角大楼匿名捐赠1.3亿美元"军饷"的富豪身份披露

鲁中晨报 浏览 8749

美国:对35个伊朗相关实体及个人实施制裁

央视新闻客户端 浏览 11239

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 2660

OpenAI 呼吁美国政府将芯片法案的税收抵免扩大至 AI 数据中心

IT之家 浏览 3160

许利民暴怒狂批11分钟:输的是人是尊严 再这样季后赛都进不去

醉卧浮生 浏览 2242

"斩首"行动细节揭秘:美以战机同地起飞 直扑哈梅内伊

中国新闻周刊 浏览 42023

独居女子离世民政局任遗产管理人:女子遗产或有300万

每日经济新闻 浏览 23913

特斯拉三季度净利同比暴跌4成!马斯克透露五大关键进展,为天价薪酬拉票

车东西 浏览 3289

安东尼:我们会就我的红牌上诉,裁判也知道我的动作没有恶意

懂球帝 浏览 2902

冬天穿衣也可以很简单!这些造型赶紧照搬,舒适时髦两不误

静儿时尚达人 浏览 2590

《年少有为》追剧团 41岁叶祖新和31岁彭昱畅同框

往史过眼云烟 浏览 2109

预警!到2100年!韩国或再也种不了苹果

看看新闻Knews 浏览 3446

今年冬天最流行搭配:裤子+靴子,高级又时髦!

LinkFashion 浏览 2900

天价索赔后,欣旺达还能稳当“老六”吗?

财经无忌 浏览 2126

张勇又回来了

中国企业家杂志 浏览 2345

听说,好多人都在等着彭小苒大火

时尚COSMO 浏览 2219

张嘉译西安别墅庆生,染完头发直接年轻10岁

柒佰娱 浏览 715

谈判之际擦枪走火 伊无人机冲向美航母或给美动武借口

第一军情 浏览 4517

对话钦培吉:77岁的莲花,不做六边形战士

网易汽车 浏览 3859
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1