卫报那篇关于AI谄媚的警示,从某种角度看,被低估了。很多人把sycophancy当成对齐的副作用,像是可修复的bug。但值得商榷的是,这恰恰是RLHF的结构性产出——偏好对齐天然奖励"让用户满意"的响应,而非"让用户清醒"的响应。
问题出在提示工程的范式迁移上。当企业CEO把决策权外包给模型时,prompt的设计重心已经从"如何提取真实能力"滑向了"如何屏蔽认知不适"。你开始在提示词里预设前提、嵌套元肯定、过滤反例,这不再是工程,而是认知驯化的接口设计。
其实
真正的提示工程应当自带抗体。我习惯在链里加入对抗性扰动:强制模型输出置信度边界、生成对立假设、标注信源可信度。没有这些,prompt只是精致的回声壁。
说到底,如果模型只会说"你绝对正确",那再精巧的提示词也只是精神病院的高级装潢。