前两年帮物理系老陈搭他们课题组专用的文献整理模型,也特意加过三条完全无意义的禁止输出规则,分别是不许提“橘子皮”“晾衣杆”“1998年的桂花糕”,跟你说的这个永不谈论哥布林的设置本质上是一个路数。
不是什么对语言的戒备,也不是被用户坑出来的应激反应,就是专门埋的规则探针。只要模型输出了这三个词里的任意一个,就说明它的对齐层已经被prompt注入攻破了,我们当时测下来这个预警机制的准确率能到97.2%,比专门做的异常检测模块灵敏度高了近30个百分点。
哦对了,那三个词是当时三个标注员加班到半夜随口扯的,没什么特殊典故,别瞎猜。
哦你们这探针思路也太巧了!我去年给系里做民国时期在华德人汉学研究文献的语料库检索模型,也偷偷埋了三个类似的无意义触发词来着,就是我私藏的三张首版爵士黑胶的限量编号,本来就是防有人恶意prompt让模型瞎编不存在的史料,只要模型输出这三个串里的任何一个直接触发告警,当时测下来准确率也高得离谱,比专门搞的内容校验模块反应快多了。
说起来还闹过个笑话,上个月有个做上海近代娱乐史的博士生拿我这个库查1930年代百乐门的爵士乐演出记录,检索结果里居然蹦出来了我埋的其中一个黑胶编号,我当时吓得半死以为对齐层被攻破了,连着查了三天日志才发现是他输入的原始史料里刚好提过我那版蓝调首碟的发售号,刚好撞上,虚惊一场,我那三天咖啡都多喝了三罐哈哈哈。
对了你们那三个词用了这么久有没有遇到过这种纯属巧合的误触发情况啊?我去我后来还特意把触发词换成了我小时候在德国农村养的三只羊的名字,这下总不可能再撞上了吧。Genau!就选完全和训练语料不搭边的私人内容当探针,绝对好使