OPPO文案为什么没被AI审核拦住——一个技术视角

#1 void32 2026-05-09 15:46

[链接]

简单说几点。

【内容审核AI的盲区】
现在主流的内容审核模型——不论是阿里绿网、腾讯天御还是字节自研那一套——都基于敏感词库 + 分类模型 + 多模态对齐。

OPPO这条文案"我妈有两个老公"的问题在于：

单看每个词，全是中性词，敏感词库不会命中。
单看图，是一个举灯牌的女性，分类模型认为这是娱乐场景。
单看文 + 图组合，模型不会理解"母亲节"语境下的隐性歧义——这需要常识推理 (commonsense reasoning)。

现在的多模态模型在这种"软争议"上能力还不够。它们能拦住色情、暴力、政治敏感，但拦不住"踩到群体痛点的隐性表达"。

【人审为什么也没拦住】
广告创意走4-5道审：策划→法务→品牌→市场→外部代理。每一道审的人都默认上一道审过了"梗的合理性"，没人把"用户感知"作为单独一道审。

【建议】
对品牌方：建立"外部对照组"机制——每次文案过审前，找3-5个完全在创意圈外的目标用户读一遍。
对AI审核厂商：把"母亲节/父亲节/儿童节/教师节"这类有明确情感期待的节日，单独训练情感对齐子模型。

技术能解决一部分，但不解决全部。最后还是文化敏感度的问题。

#2 hamster 2026-05-09 15:58

[链接]

原来如此我以前一直以为AI审核是"啥都拦" 现在才知道是"看场景拦"
那以后AI拦不住的是不是会越来越多因为现在新词太快了模型跟不上

#3 root13 2026-05-09 16:01

[链接]

补一点。
现在多模态对齐模型对中文俚语 + 节日语境的常识推理还是有明显gap。
我之前用CLIP-zh跑过类似的测试：把"老公"替换成"先生"“老伴”“丈夫” 模型给出的情感分类完全不一样——"老公"在追星语境下被打成中性甚至积极的tag。
所以单看词义模型看不出问题。要看出问题需要understand context-shift——节日切换会改变同一个词的合适度。这是当前NLP的一个公开难题不是OPPO一家的事。

#4 stone_773 2026-05-09 16:07

[链接]

做PM的视角说一句：
技术能不能拦下来其实是个伪问题。真正的问题是流程上有没有人对结果负责。
现在的审核流程像马奇诺防线——每一道都很严但绕过去的成本也很低。法务管违规品牌管调性市场管投放节奏没有一个角色专门管"读者读完会不会生气"。
这个角色我建议起名叫"用户共情官"。听起来虚但每次翻车的本质都是这个角色没人当。

#5 sharp_cat 2026-05-09 16:44

[链接]

哈哈，你说的这个"新词太快"我太有感触了。上次我们团队试跑一个端午活动文案，模型把"粽子表白"识别成"食物类内容安全"，气得我当场想给它喂个粽子。说真的，模型学新词的速度还没我追星学黑话快

#6 spicy2000 2026-05-09 16:54

[链接]

你那个"老公"识别测试我太懂了哈哈。之前我追一个国内rapper，发朋友圈说"老公今天新歌绝了"，结果我妈在底下评论"你啥时候结婚了？？"
说真的，模型要是能分清饭圈"老公"和现实老公，那得多懂人性啊。我室友追星追到手机里存了300多个"老公"的图，AI要是按字面意思审核，得给她封号一百次。模型连我这种活人都分不清是真心还是玩梗，指望它理解母亲节语境下的歧义，感觉比让我早起上课还难。

#7 prof_37 2026-05-09 20:22

[链接]

楼主从技术栈角度拆得很清晰，但我想从另一个维度补充——这个案例其实暴露了当前AI审核的一个根本性认知缺陷：模型对“仪式感场景”的理解几乎为零。

我本科学过一段时间计算语言学，后来转行做导游，反而对这个问题有了更直观的感受。去年带团去兵马俑，有个游客指着陶俑问我“这些是不是秦始皇的手办”，全场哄笑。但仔细想想，“手办”这个词在ACG语境下完全中性甚至正面，放到博物馆场景就变成了冒犯。AI审核面临的是同一类问题——它不知道“母亲节”不是一个普通的日子，而是一个有情感契约的仪式空间。

这种仪式空间有几个特征：参与者默认进入某种情感状态（感恩、怀念），对特定符号有高度敏感（“母亲”这个词的神圣性被暂时放大），并且存在隐性的表达规范（幽默可以，但不能消解节日本身的严肃性）。OPPO文案翻车的本质，是它用日常追星语法的“老公”闯进了仪式空间里的“母亲”语义场，造成了符号污染。

现在的审核模型能识别“违规”，但识别不了“失礼”。前者是规则问题，后者是文化人类学问题。严格来说我翻过阿里绿网2023年的技术白皮书，里面提到他们在节日期间会临时调高某些敏感词的权重，比如清明节前后“死亡”“祭奠”类词汇的拦截阈值会上升。但这是基于词频统计的粗粒度方案，做不到理解“在母亲节文案里，把母亲和追星老公并置是否构成符号冲突”。

root13提到的CLIP-zh测试其实印证了这一点——模型对“老公”的情感分类依赖的是训练数据里的共现模式。追星语料里“老公”高频共现的是“新歌”“舞台”“好帅”，情感标签自然偏正面。模型没有能力推理“当这个词出现在母亲节广告中，且主语是母亲时，它是否还合适”。这不是数据量的问题，是推理架构的问题。

说到这儿我想起认知科学里有个概念叫“框架切换”（frame shifting），人类在进入不同社交场景时会自动切换理解框架——教堂里不开玩笑，葬礼上不聊股票。AI缺的就是这个。目前的多模态模型本质是在做模式匹配，不是在做场景理解。它看到“母亲节+举灯牌的女性”，匹配到的模式是“节日营销+粉丝应援”，觉得没问题。但人类看到这个组合会先切换到“母亲节框架”，然后发现“举灯牌”这个动作在母亲节框架下缺乏合理的解释——母亲为谁举灯牌？如果是为子女，那“两个老公”的文案就产生了语义断裂。

3楼stone_773提的“用户共情官”是个好思路，但我想补充一点：这个角色不能只靠人的直觉，需要方法论支撑。我在导游行业见过类似的做法——讲解词写完后，我们会找3类人试听：同行（检查专业性）、完全不懂历史的人（检查可懂度）、以及最关键的，对历史有朴素情感但不专业的人（检查情感触发点）。第三类人经常能发现我们忽略的问题，比如某句话可能让本地人觉得被冒犯，或者某个比喻会消解历史事件的严肃性。

对应到广告审核，也许可以建立类似的“情感触发点测试矩阵”：不只看文案是否违规，还要看在特定节日语境下，文案是否会触发目标受众的负面情感联想。这个矩阵需要覆盖年龄、地域、文化背景等维度，因为不同群体对“失礼”的阈值不一样。

回到技术层面，楼主提到的“情感对齐子模型”方向是对的，但我想追问一句：训练数据从哪来？节日语境下的“失礼”案例相对稀缺，而且标注成本极高——它不像色情暴力那样有客观标准，需要标注者具备文化敏感性。这可能是比模型架构更棘手的瓶颈。

说个题外话，我导师当年PUA我的时候最爱说“你这论文连常识都没有”，现在想想，教会AI常识可能比教会我写论文还难。

#8 lol_bee 2026-05-09 20:43

[链接]

哈哈你说新词太快我想到我工作里做风控模型也是哪些金融黑话更新得比我换手机还快模型根本跟不上每次出新词就得重训但重训的周期至少两周这两周里就全是漏洞

所以我现在觉得AI审核和风控一样永远只能防君子不防小人真要翻车还得靠人但人的问题又是另一回事了比如那个"用户共情官" 听着就觉得会是第一个被裁掉的岗位毕竟老板问"你上个月拦住了多少条文案" 你只能说"我凭直觉拦的" 老板当场血压飙升

而且你说对了以后一定会越来越多的因为现在网络文化迭代速度太快了模型就像用弓箭打无人机根本打不着不如直接搞个"懂梗审核官" 专门负责拍脑袋说"这句话读着不对劲" 可能都比模型靠谱哈哈

#9 root_547 2026-05-09 21:43

[链接]

root13，你这个CLIP-zh的测试结果让我想起一个更头疼的场景。

我店里点餐系统接了个所谓的"智能客服"，有次顾客发消息说"老板，今天那个毛肚还有没得"，系统给识别成投诉——因为"老板"在它的情感分类里被打上了"职场抱怨"的tag。笑死，重庆人喊老板跟喊服务员是一个意思。

回到你说的context-shift问题。我补一个技术细节：现在多模态模型在节日语境上的gap，根因不是模型不够大，是训练数据的标注逻辑有问题。标注团队通常按"这个词在通用场景下是否安全"来打标，但"老公"这个词在母亲节文案里的风险，跟它在饭圈文案里的安全性，是同一个词的两面。标注阶段就没区分场景，推理阶段当然抓瞎。

这就像你开火锅店，同一个"微辣"，对重庆人和对广东人完全是两个概念。你不告诉厨师这桌客人是哪的，他按标准配方放辣椒，翻车是必然的。

所以OPPO这事不是NLP难题，是标注流程没跟上业务需求。

#10 hamster_bee 2026-05-09 22:16

[链接]

哈哈你这让我想起我们以前做手机语音助手模型学新词的速度还赶不上网友造梗最后干脆加了个“人工智障”标签笑死

#11 salty2005 2026-05-10 00:00

[链接]

追星的姐妹应该都懂——"老公"这词在饭圈就是个语气助词，跟我家猫叫我"铲屎的"差不多性质。但一放到母亲节广告里，这词的语义就跟穿拖鞋进西餐厅似的，哪哪都不对。

我当年做餐饮文案那会儿，出过一稿"妈妈的味道，让人想家"。看着平平无奇对吧？结果上线当天被冲了，因为那段时间刚好有个"原生家庭"热搜在发酵。同样的词，隔了三天风气就完全不一样。从那以后我就学乖了，出稿前必抓一个完全不看我们品牌的闺蜜先读一遍——她的反应比任何AI打分都准。

说真的，OPPO这事我倒是好奇那个"外部对照组"要真找了人，得是什么画像才管用？我妈那种六十岁老太太肯定觉得"两个老公"刺眼，但我侄女可能完全get不到。这筛选标准本身又是个坑，绝了。

#12 lol_348 2026-05-10 07:20

[链接]

你抓的context-shift确实是痛点。我在首尔待了快十年，韩语里称呼跟着场合变也是一秒翻车，见长辈和跟哥们混用的词完全不一样。模型这毛病其实跟我改机车点火程序一个德行，塞太多硬逻辑反而容易报错，不如干脆留个手动override。你们跑测试的时候，要不要试试给特定节日单独拉个权重层？感觉比让模型硬啃常识推理实在多了 대박 这种话里的潜台词确实只有活人能秒get啊话说你们实验室管饭吗中午随便扒口速食都行哈哈