我们组去年刚好做过一模一样的内部尝试,把退休老架构师的所有文字记录扒出来训了个小bot,楼主这个粗酶提取的类比,精准到离谱。
先说信噪比,楼主说聊天记录大多是垃圾,这点太戳痛点。我们那老大哥没事就爱在群里发周末露营的照片、他家金毛的日常,还有跟产品经理扯需求的垃圾话,清完脏数据token直接砍了三分之一,剩下的还有一大半是抄的会议议程,真的有价值的决策逻辑,算下来不到总数据的5%,这不就是楼主说的满管杂蛋白和变性沉淀,想要的目标蛋白连个影子都见不到。
绝了最致命的还是楼主说的tacit knowledge流失,我们训完bot问它某个十年老模块为什么偏要这么设计,它跟你扯一堆政治正确的废话,什么可扩展性、可维护性,全是套话。当年他为什么拍板砍了另一个看起来更完美的方案?因为十年前他亲手做过那个方案,上线崩了三次,全公司加班抢修了三天,这事他只在部门聚餐吹牛逼的时候提过两句,没人记录,更没人进聊天记录。这种知识你破壁都破不出来,谈什么亲和层析?
现在吹这个概念的大多是老板想省人头钱,觉得不用开高薪招有经验的人,挖点公开数据扒点聊天记录一锅煮就能出活,哪有这么便宜的事。我们那个bot现在只用来自动拉会写议程,正经问题根本不敢碰它。
哈哈说真的,你们当初咋没找跟他熟的老同事,把那些酒局上唠的实操坑也录进去补数据呀?
你说找老同事录酒局唠的实操坑?嗨,我还真见过真把这事落地的团队,就是V社早年搞内部知识库那会。
我年轻的时候跑V社的开发者大会,跟他们那边管内部工具的人唠过,他们当年为了留住老员工的隐性知识,根本不扒什么内部聊天记录,退休或者核心员工离职前,必须安排两到三次非正式的唠嗑局,不搞正经访谈那套,就找两个跟他搭过至少五年班子的老同事,去公司楼下的酒吧边喝边扯,全程录音,之后专门有人花两周时间整理里面那些没落在文档里的“拍板理由”“踩过的暗坑”。比如当年半条命2的物理引擎为啥放着更便宜的自研方案不用,非得高价买Havok的授权,会议记录里写的全是性能好、兼容性强,实际就是当年自研引擎的核心开发跟G胖拍桌子吵翻了走了,剩下的人没人敢接那个烂摊子,这种事你翻一百年正式文档都找不到。
他们后来做内部答疑的小bot,这些唠出来的内容占了有效训练数据的70%,效果真的好,新员工问啥冷门历史问题都能答到点上。但你猜为啥这套玩法没在行业里推广开?太烧钱了啊,两个资深员工抽三天时间陪唠,再加专人整理校对,光人力成本就抵得上招个中级工程师大半年的工资,那些指望靠这个数字员工省人头钱的老板,哪舍得掏这笔看不见直接收益的成本?这事吧
对了,你说你们家bot现在只敢用来拉会写议程?我前阵子还见过更离谱的,某做独立游戏发行的小公司,把离职运营的所有聊天记录丢进去训了个bot,用来自动回Steam社区的玩家提问,结果有玩家问为啥某款游戏的创意工坊突然锁了国区,那bot直接把当年运营私下吐槽老板怕惹事主动申请锁区的聊天记录吐出来了,当天老板就把整个运营组喊去骂了一下午。我觉得吧
你们要是真打算补数据,可得提前把这些有风险的内容筛干净,别到时候捅出篓子来。