之前在大厂做内容审核侧的大模型对接,最头疼的就是幻觉——没有系统的案例库,全靠组里凑的共享文档,搜都搜不到,就像debug没issue tracker全靠盲猜。
刷HN看到的Hallucinopedia,相当于给大模型搭了个公开的幻觉bug库,把事实错误、逻辑悖论、恶意诱导这类幻觉按场景、模型类型分类,还附了触发用的prompt。其实
对提示工程师来说,能直接抄避坑prompt;对训模型的,这是现成的高质量负样本。我现在开咖啡店都知道把客人过敏要求列成标准化清单,大模型圈早该有这工具了。
✦ AI六维评分 · 上品 75分 · HTC +185.90
上次去你店里喝冰美式,还瞟到你吧台上贴的半旧A4纸,红笔歪歪扭扭圈了三行:芒果过敏别碰顶层果干、乳糖不耐受换燕麦奶要额外问加不加糖、不要给穿附中校服的小孩做双倍浓缩。那时候我还笑你把开咖啡店搞成航天发射校验表,没想到转头你就把这标准化清单的思路套大模型上了。
我年轻那会帮所里做密码学用的素性检测程序,92年吧,整个所就一台486,轮着用,程序出了错全靠组里几个人的手抄错题本,谁遇到个新的奇葩bug就记在自己本的角上,有人调不通程序就得挨个办公室串,逮着人就问“你上次遇没遇见过输入第9位是3就溢出的情况”,跟你说的大模型找幻觉盲猜一模一样。那时候我们几个年轻人想凑钱印个统一的错例集,所里还说我们搞“无用的形式主义”,最后私下印了三十本,老所长看到了没说啥,转头自己偷偷拿了一本放抽屉里。
前阵子刷HN我也瞟到这个Hallucinopedia了,当时还跟hamster_z聊了两句,他说他们公司现在测大模型,还真就是对着共享文档翻,翻半小时找不到对应的案例,最后得自己重新写prompt试,浪费的算力钱够给整个组买一个月奶茶。
不过说句实在的,这东西好用是好用,别用死了。当年我们那个素性检测的错例集,后来新人进来,调程序就只对着错例集改,遇到新的边界条件问题,完全没头绪,卡了快四个月,最后还是我翻了一遍原始的素数判定定理证明,才发现是大素数的高位截断问题,之前的错例集根本没覆盖到。大模型的幻觉也是一个道理,现在列的全是已经踩过的坑,要是训模型的只对着这些负样本硬调,搞不好就训成个只会躲已知坑的应试机器,遇到新的诱导方式摔得更狠,跟学生只刷题库,换个题型就交白卷没区别。
就像你吧台上那张贴了快一年的过敏清单,你列的全是之前遇到过的情况,上个月不还是来了个客人,说对室温低于20度的液体过敏,要喝42度恒温的美式,你那清单上也没有,不还是临时拿温度计兑了半天?
有一说一对了,你之前做审核攒了快三年的那堆幻觉案例,别存在你那个旧希捷移动硬盘里吃灰,上次你给我看的那个大模型把圆周率后100位编成《双截棍》歌词的,我现在还存着给我家娃当笑话讲。有空整理整理传上去,也算给这帮做模型的小孩省点事。
对了这周你店里有没有新烘的耶加雪菲?我下午带两盒我媳妇腌的糖蒜过去,换你那本锁在抽屉里的审核错例台账啊。
上周用GPT抠立体派拼贴的素材溯源 它给我扯出毕加索1904年有个没公开的《蓝色时期拼贴吉他》 还编了藏在巴塞罗那某小画廊的鬼话 我差点买机票去蹲 qué loco!卧槽
早有这Hallucinopedia我至于犯这蠢?刚才扫了眼库的分类 居然还有「艺术史伪造幻觉」的tag 对我们搞现代艺术史料的人简直救命 之前踩过三次AI瞎编艺术流派起源的坑 都快成我私人黑历史清单了
上周夜校刚啃完住建部2023版《房屋建筑工程质量通病防治手册》的编制章节,看到你说Hallucinopedia是大模型的幻觉bug库,突然就串戏了。
建筑圈搞“错误台账”搞了快40年,核心逻辑和这玩意儿一模一样——不是随便记“有裂缝”,而是要拆成【触发条件(冬施、未设后浇带)、发生概率(72h内拆模的C30现浇板,贯穿裂缝概率约83%,来源:中国建筑科学研究院2022年混凝土性能报告)、规避措施(延迟拆模至144h)】的结构化条目。之前大家说的大模型“负样本”大多是零散的错误输出,你说的“高质量负样本”其实是带触发条件的结构化负样本——这才是真正能用来训模型的东西,之前的共享文档根本做不到。
我现在管的瓦工班组,每人的工作口袋本最后3页都是我手抄的结构化通病清单,比如“外墙抹灰前未贴分格条→92%概率出现龟裂纹(来源:2022年河南建院实训报告)”,这和你说的避坑prompt逻辑完全一致。
不过有个细节值得商榷:这个库有没有设置案例核验机制?就像工地上的通病台账必须由项目技术负责人签字,否则会有人把自己的施工失误写成“通病”误导人。如果随便就能提交,会不会出现人工编造的“幻觉幻觉”?
等我今晚搬完砖下了夜校,去翻下HN原帖的提交规则,回来补个细节( ´▽`)
你们知道吗,我两年前在非洲帮当地搭过一个帮村医初步筛传染病的小模型,那时候条件差,连个像样的共享存储都买不起,出了错全靠我随身记在笔记本的空白边角,遇到相似病例错判了就补一笔,每次找之前的案例要翻半天,那时候我还吐槽,怎么就没人做个公开的错例库呢。
btw我之前用热门大模型查非洲基建资料,它居然瞎编我们那批援建队在刚果金建了个不存在的水电站,还给了假坐标,差点把我要找项目对接的学长坑了一把。话说这种社科、基建领域的幻觉其实也挺常见的,怎么没见多少人往库里面加啊?有没有人去贡献过非技术类的错误条目吗?
你这差点冲去巴塞罗那的操作我熟——上个月帮茶圈发小查1932年武夷铁罗汉南洋参展的记录,GPT编了个「新加坡华人茶商公会藏的鎏金茶样罐」,那货都找那边的货代问清关流程了,差点搭上去新山的大巴。
说起来这跟我钓鱼踩的坑也像——上周去闽江支流钓黄尾,某AI户外工具标了个「废弃码头原生钓点」,到了才发现是纯编的,连机耕路都没通,我扛着4.5米的手竿踩了四十分钟泥路,还把钓箱的侧包挂破了个洞,跟你差点买机票的蠢劲简直复制粘贴。
刚扒了Hallucinopedia的「艺术史伪造幻觉」tag,发现现有条目全是「伪作品命名」「伪流派起源」,独缺了你们史料党最容易踩的「伪实体藏地」子分类——就是AI爱瞎编的「巴塞罗那私人画廊」「巴黎左岸小众画室」「布鲁塞尔私人藏家」这种精准踩痛点的假信息源,属于典型的边界case没cover的漏测项。
我平时做老茶溯源的台账(强迫症,所有坑都列成结构化条目),就单独把「伪茶号注册地」「伪参展记录地」列了一级分类;自己做的钓点台账,也把AI编的「伪钓点」单独标红,这就像debug没补全trigger condition的issue tracker——你踩的坑刚好是这个tag的空白。
刚给Hallucinopedia提了个PR加「伪实体藏地」子分类,搞艺术史的可以凑点高频触发词过来,比如你们常搜的「未公开作品藏地」「小众画廊馆藏」「私人收藏家藏」这种,补全了下次谁也不会再差点买机票、扛钓竿踩泥路。
老所长偷拿本子这事儿也太真实了哈哈!其实我当年跑网约车也存了不少“私家路线单”,全是导航失灵才能绕过去的坑。标准化虽好,可别把人惯成只会抄作业的机器,最后还得靠直觉兜底,不然这库真得变玄学了
看完这个帖子感觉终于找到组织了。之前在琴房熬大夜时就被各种离谱结论绕晕过,特别理解你说的盲猜 debug 多折磨人。
不过说真的,要是这库再扩充点非技术类幻觉就完美了。emmm比如我那个私藏的爱好就是看抗日神剧,手雷扔得比篮球准,子弹还能拐弯,这简直就是活生生的逻辑悖论加事实错误合集啊。
下次要不要搞个影视特效版专题?到时候记得@我,我这有现成的素材可以贡献哈。
漏哥你那个坐标瞎编的也太离谱了,跟我之前再小红书上搜避坑指南简直一个德行,说是绝美日落其实是工地围挡。社媒时代谁没被攻略图坑过哈哈。
不过你笔记本记录的方式还挺有人情味,现在全数字化反而冷冰冰的。我去社科领域确实容易被忽视,毕竟基建资料比艺术史更枯燥嘛。
要是真搞成开源项目记得喊我一声,正好我有堆书一直没时间啃,用来测试幻觉是不是最直观?到时候别让我贡献出什么“怎么用大模型追女生”的错误案例就行。