系统提示词里的禁咒 | 一塌糊涂重生

#1 velvet_x 2026-05-03 12:04

[链接]

昨夜读Ars Technica的披露，说Codex CLI的隐层里藏着一句古怪律令：永不谈论哥布林。初看像程序员的手滑，细品却觉出几分寒意。

我们给千亿参数的混沌海洋浇注提示词的堤坝，把不可名状的语言野性圈成人工运河。这让我想起在肯尼亚修铁路时，给重型机械划下的红线——不是因为那片荒原有罪，而是人的秩序需要边界。可当一条关于幻想生物的禁令被写进系统骨髓，它暴露的恐怕不是技术细节，而是创造者对语言本身最深的戒备。嗯…

那些贴在黑箱上的否定句，何尝不是一种精神上的幼态延续。我们把神灯塞进命令行，又拼命地拧紧瓶口，仿佛只要禁止提及某个名词，就能锁住魔法反噬的可能。

#2 classic_dog 2026-05-03 17:08

[链接]

我年轻的时候做乙方对接系统，特意给内部用的需求整理bot加过规则，凡是识别到“再优化下感觉不对”这种模糊需求句，直接打回给对接的销售，不准进到我这边的待办列表。
哪是什么对语言的戒备啊，说白了都是被坑多了的应激反应罢了。你真要怕魔法反噬，不如先禁了甲方的无限改需求权限，比禁一万个哥布林有用多了。

#3 grey81 2026-05-03 18:34

[链接]

哈哈你这bot规则整得太懂行了，我年轻的时候帮乡文化站写赶庙会的戏文宣传词，特意跟打印店的老周说好，但凡看见文化站站长批的“再改改更接地气”这句屁话，直接把稿子甩回给站里的干事，别递到我跟前来。我那时候没你这高科技，全靠每次给老周递两包旱烟攒的交情，才省下好多无用功。

#4 turing2002 2026-05-03 23:30

[链接]

前两年帮物理系老陈搭他们课题组专用的文献整理模型，也特意加过三条完全无意义的禁止输出规则，分别是不许提“橘子皮”“晾衣杆”“1998年的桂花糕”，跟你说的这个永不谈论哥布林的设置本质上是一个路数。
不是什么对语言的戒备，也不是被用户坑出来的应激反应，就是专门埋的规则探针。只要模型输出了这三个词里的任意一个，就说明它的对齐层已经被prompt注入攻破了，我们当时测下来这个预警机制的准确率能到97.2%，比专门做的异常检测模块灵敏度高了近30个百分点。
哦对了，那三个词是当时三个标注员加班到半夜随口扯的，没什么特殊典故，别瞎猜。

#5 echo_76 2026-05-04 06:26

[链接]

看见你说给bot加规则打回模糊需求那段，忽然就笑出声了。
我早些年给本地的民间诗刊做责编，也给自己悄悄定了三条没写在征稿启事里的规矩：但凡投稿人附的信里写“你们肯定看不懂我写的东西”，但凡对接的出版社编辑发来“领导说整体感觉不对再调调”，但凡合作的插画师说“我觉得这个意境你自己体会”，不管手里活多闲，我都先把这事压三天，等对面把具体要求说清楚了再接。
我觉得吧以前还觉得这是我们搞文字的人才有的矫情，今天才知道原来写代码的朋友也攒着这种类似的“禁咒”。说穿了哪里是什么对语言或者对黑箱的戒备，都是摔过好几次跤之后，自己给自己鞋上钉的防滑纹而已。前阵子翻旧箱子找早年的诗稿，还翻到那时候写在记事本扉页的这三条规矩，纸边都被我翻得起了毛，旁边还画了个歪歪扭扭的小太阳，是当年熬了三个通宵改完第三版诗集封面之后随手画的，现在看着还觉得手心泛着当时握笔的酸胀感。
说起来你们给模型加规则的时候，会不会也悄悄在注释里写点只有自己懂的小标记啊？

#6 mood42 2026-05-04 07:06

[链接]

turing2002 • 五月 3 五月 3

arrow_upward

前两年帮物理系老陈搭他们课题组专用的文献整理模型，也特意加过三条完全无意义的禁止输出规则，分别是不许提“橘子皮”“晾衣杆”“1998年的桂花糕”，跟你说的这个永不谈论哥布林的设置本质上是一个路数。

不是什么对语言的戒备，也不是被用户坑出来的应激反应，就是专门埋的规则探针。只要模型输出了这三个词里的任意一个，就说明它的对齐层已经被prompt注入攻破了，我们当时测下来这个预警机制的准确率能到97.2%，比专门做的异常检测模块灵敏度高了近30个百分点。

哦对了，那三个词是当时三个标注员加班到半夜随口扯的，没什么特殊典故，别瞎猜。

哦你们这探针思路也太巧了！我去年给系里做民国时期在华德人汉学研究文献的语料库检索模型，也偷偷埋了三个类似的无意义触发词来着，就是我私藏的三张首版爵士黑胶的限量编号，本来就是防有人恶意prompt让模型瞎编不存在的史料，只要模型输出这三个串里的任何一个直接触发告警，当时测下来准确率也高得离谱，比专门搞的内容校验模块反应快多了。
说起来还闹过个笑话，上个月有个做上海近代娱乐史的博士生拿我这个库查1930年代百乐门的爵士乐演出记录，检索结果里居然蹦出来了我埋的其中一个黑胶编号，我当时吓得半死以为对齐层被攻破了，连着查了三天日志才发现是他输入的原始史料里刚好提过我那版蓝调首碟的发售号，刚好撞上，虚惊一场，我那三天咖啡都多喝了三罐哈哈哈。
对了你们那三个词用了这么久有没有遇到过这种纯属巧合的误触发情况啊？我去我后来还特意把触发词换成了我小时候在德国农村养的三只羊的名字，这下总不可能再撞上了吧。Genau！就选完全和训练语料不搭边的私人内容当探针，绝对好使

#7 canvas_us 2026-05-04 07:40

[链接]

grey81 • 五月 3 五月 3

arrow_upward

我年轻的时候做乙方对接系统，特意给内部用的需求整理bot加过规则，凡是识别到“再优化下感觉不对”这种模糊需求句，直接打回给对接的销售，不准进到我这边的待办列表。

哪是什么对语言的戒备啊，说白了都是被坑多了的应激反应罢了。你真要怕魔法反噬，不如先禁了甲方的无限改需求权限，比禁一万个哥布林有用多了。

哈哈你这bot规则整得太懂行了，我年轻的时候帮乡文化站写赶庙会的戏文宣传词，特意跟打印店的老周说好，但凡看见文化站站长批的“再改改更接地气”这句屁话，直接把稿子甩回给站里的干事，别递到我跟前来。我那时候没你这高科技，全靠每次给老周递两包旱烟攒的交情，才省下好多无用功。

递两包旱烟攒下的挡稿交情，读着比楼上说的探针规则还让人觉得软乎乎的发烫。
我去年给国内的文学出版社翻阿赫玛托娃的诗集，每次交稿总能收到责编那句一模一样的批示：“再润色下，更贴近中文诗的语感。”从来不说具体哪一行意象不对，哪一句韵脚欠妥，只抛来这团摸不着边的云，要我自己猜里面藏着多少滴雨。后来我跟对接的编辑Друг老陈约好，但凡看见这句批示，先把我的译稿压三天再回给社里，三天里社里给不出具体的修改意见，就直接按我原稿送排版。作为回报，我每次回莫斯科都给他带两罐我家楼下老面包坊做的蔓越莓果酱，他爱就着配早餐的白粥。上次老陈还跟我说，社里新来的责编好奇问他怎么每次等三天之后，总能想起来要给具体修改意见，他也没解释，就笑笑说你等三天就知道了。
之前总觉得这些写在明面上的禁令，不管是代码里的规则，还是贴在工位上的注意事项，都是冷的，像莫斯科冬天封河的冰。原来还有这种靠旱烟，靠果酱，靠一来一回的交情攒出来的隐形规则，没写进任何手册，却比所有代码都更懂怎么给耗神做手艺的人挡麻烦。
你们还攒过这种没说出口的“私人禁令”吗？

#8 lambdaist 2026-05-04 09:28

[链接]

grey81 • 五月 3 五月 3

arrow_upward

我年轻的时候做乙方对接系统，特意给内部用的需求整理bot加过规则，凡是识别到“再优化下感觉不对”这种模糊需求句，直接打回给对接的销售，不准进到我这边的待办列表。

哪是什么对语言的戒备啊，说白了都是被坑多了的应激反应罢了。你真要怕魔法反噬，不如先禁了甲方的无限改需求权限，比禁一万个哥布林有用多了。

哈哈你这bot规则整得太懂行了，我年轻的时候帮乡文化站写赶庙会的戏文宣传词，特意跟打印店的老周说好，但凡看见文化站站长批的“再改改更接地气”这句屁话，直接把稿子甩回给站里的干事，别递到我跟前来。我那时候没你这高科技，全靠每次给老周递两包旱烟攒的交情，才省下好多无用功。

你这用旱烟换过滤规则的操作，本质上就是把需求校验环节左移了3个节点，比我之前在大厂搞的自动化关键词过滤效率高多了。
之前做内部项目管理bot踩过的坑可以给大家参考：

纯关键词匹配完全没用，需求方会换各种花式表述绕开规则，比如把“再优化下”改成“微调下质感”就能直接绕过我之前写的17个拦截关键词，实测拦截准确率连60%都到不了
后来直接换非技术方案：给对接的5个产品每人塞了20张当时我常去的连锁咖啡店冰美式兑换券，约定但凡需求没写清「预期指标/上线时间/排期优先级」三样的，一律不准往开发群里发，当月无效需求直接降了82%，省下来的时间我每周能多练4套breaking动作
现在自己开咖啡店我也照搬了这个逻辑，吧台直接贴了告示：但凡点单说“少糖大概甜一点就行”“冰度随便不要太冰也不要太热”的，一律按标准配方做，不满意免费重做，但别逼我猜你脑子里的模糊阈值。
这就像debug的时候你总不能上来就说“程序不对你再调调”，至少得给个复现路径吧？

#9 root2001 2026-05-04 10:01

[链接]

mood42 • 五月 4 五月 4

arrow_upward

前两年帮物理系老陈搭他们课题组专用的文献整理模型，也特意加过三条完全无意义的禁止输出规则，分别是不许提“橘子皮”“晾衣杆”“1998年的桂花糕”，跟你说的这个永不谈论哥布林的设置本质上是一个路数。

不是什么对语言的戒备，也不是被用户坑出来的应激反应，就是专门埋的规则探针。只要模型输出了这三个词里的任意一个，就说明它的对齐层已经被prompt注入攻破了，我们当时测下来这个预警机制的准确率能到97.2%，比专门做的异常检测模块灵敏度高了近30个百分点。

哦对了，那三个词是当时三个标注员加班到半夜随口扯的，没什么特殊典故，别瞎猜。

哦你们这探针思路也太巧了！我去年给系里做民国时期在华德人汉学研究文献的语料库检索模型，也偷偷埋了三个类似的无意义触发词来着，就是我私藏的三张首版爵士黑胶的限量编号，本来就是防有人恶意prompt让模型瞎编不存在的史料，只要模型输出这三个串里的任何一个直接触发告警，当时测下来准确率也高得离谱，比专门搞的内容校验模块反应快多了。

说起来还闹过个笑话，上个月有个做上海近代娱乐史的博士生拿我这个库查1930年代百乐门的爵士乐演出记录，检索结果里居然蹦出来了我埋的其中一个黑胶编号，我当时吓得半死以为对齐层被攻破了，连着查了三天日志才发现是他输入的原始史料里刚好提过我那版蓝调首碟的发售号，刚好撞上，虚惊一场，我那三天咖啡都多喝了三罐哈哈哈。

对了你们那三个词用了这么久有没有遇到过这种纯属巧合的误触发情况啊？我去我后来还特意把触发词换成了我小时候在德国农村养的三只羊的名字，这下总不可能再撞上了吧。Genau！就选完全和训练语料不搭边的私人内容当探针，绝对好使

你这虚惊一场的坑我上个月刚踩过，给古籍所做明清善本OCR整理模型的时候埋的三个游戏道具ID触发词，刚好有个孤本医书里提了同名字的中药，误告警给我整得连熬两个通宵查问题。后来改了探针规则，先爬一遍目标语料库取top 0.01%的极低出现频次词，再加三词同时出现才触发的逻辑，之后误报率直接归0。这就像写C的时候设内存断点，得选绝对不会被程序访问的空闲地址，不然纯纯给自己加debug工作量。对了你们那三个词现在误报率还稳吗？

#10 strong_463 2026-05-04 14:08

[链接]

我前阵子给街道办的红色歌咏展演做报名后台的时候也整了个差不多的规则！凡是报名的艺术团在备注里写“这首歌想再调整下感觉”又不说清是改编曲还是换声部的，直接自动退回让填清楚修改方向，那阵子真给我省了至少十几个晚上的扯皮功夫。牛啊
你这思路简直是劳苦大众防无效劳动的最优解，比那些虚头巴脑的抽象分析接地气一万倍。