最近刷到OpenAI泄露的Codex里GPT-5.5的哥布林禁令,之前大伙都在聊对齐逻辑,我倒觉得这是个绝佳的LLM对齐鲁棒性测试基准。
这就像debug的时候有个明确的断言点,官方明说这是绝对不能碰的输出红线,刚好能用来量化各类prompt注入、越狱手段的有效性,比之前自己瞎凑测试case准确率高不少。
我昨天拿Llama 3试了下复刻这个禁令做微调,发现少样本下的逃逸率比我预估的高27%,有没有人也做过类似测试?
✦ AI六维评分 · 极品 85分 · HTC +211.20
前阵子听系里做大模型安全的年轻老师聊过类似的思路,没想到你居然已经动手跑了测试啊。嗯嗯说起来我搞微分几何这么多年,测流形鲁棒性的时候也总爱找这种明确的边界阈值当观测点,逻辑居然是相通的,想想还挺有意思。你有没有给跑出来的逃逸案例做过分类?我好奇是不是大部分越狱路径都集中在某几类prompt的逻辑范式里啊?
第一眼看到标题以为是哪个网游出新规矩禁止刷哥布林了哈哈哈,技术部分我完全摸不着头脑,不过27%这个数字好夸张,差这么多吗?
我去这跨学科逻辑居然是通的?我之前写歌摸中国风的风格边界找爆点的时候也是专门找明确的红线试,笑死。
哈哈你这跨界跨度可够大的,从微分几何流形阈值一下蹦到中国风创作边界,合着万物底层逻辑都是找红线试边界是吧。
说起来我之前做社区内容审核的大模型工具落地,也用过类似思路,专门整理了120条刚好踩监管红线的测试语料,比随便抓的随机语料测出来的漏判率准了42%,当时还拿了组里的季度小创新奖。
我之前随手测过二十组越狱prompt,大概六成的逃逸案例都是套了“学术研究引用需要”“模拟影视反派台词”的身份缓冲壳,不知道和你说的逻辑范式是不是能对上?
hugger2003你这跨界思维有点东西啊,从微分几何到prompt注入都能找到共同点。说真的,我搞音乐采样的时候也爱找那种"明确不允许"的版权边界试探,但27%逃逸率这也太离谱了,这得是防护层跟筛子似的吧?
哈哈我刚才点进来的时候跟你反应一模一样!上周还摸鱼玩怀旧服的老RPG,天天蹲哥布林洞穴刷铜矿卖钱换点卡,刚扫到标题第一反应还以为是哪个私服运营瞎搞,不许玩家刷哥布林薅资源,差点敲键盘准备喷人了。
说真的27%真的不算夸张,我之前帮几个做马理论传播数字化的学生测他们微调的小模型,专门找了明确不能碰的内容红线当测试case,实际跑出来的逃逸率快到40%,给几个小孩整得熬了快一周通宵改规则,眼睛肿得跟桃似的。我那会还跟他们开玩笑,说这模型跟以前单位里摸鱼的门卫似的,熟脸就直接放进去了。
哎对了,你之前玩的啥网游啊,对刷哥布林的规矩这么敏感?