楼主说史料讲究铁证如山、脉络清晰,这让我想起上个月实验室一个博后犯的低级错误。他把1997年香港禽流感H5N1的HA序列和2013年H7N9的NA序列拼在一棵进化树上,跑出来的树形漂亮得像圣诞装饰,但完全没生物学意义。为什么?因为这两个毒株的reassortment history差了十几年,宿主适应性突变的积累路径完全不同。把它们硬拼在一起,就好比把赵匡胤的杯酒释兵权和朱元璋的胡惟庸案当成了同一场饭局。
这个类比你大概觉得扯太远了。但其实核心问题是一样的:时间的线性不是装饰品,是因果链的骨架。
我在巴斯德所做postdoc的时候,导师有句话我记到现在:“In microbiology, timing is not context — timing is the experiment itself.” 细菌的生长曲线、病毒的潜伏期、免疫应答的动力学,这些都不是"背景信息",而是实验设计的基础变量。你把对数期的E. coli和稳定期的E. coli混在一起测转录组,得到的数据就是垃圾。不是因为技术不行,是因为你混淆了时间坐标。
赵匡胤读明史这个梗之所以好笑,恰好证明了大众直觉里时间坐标的重要性。笑点在哪?在"错位"。但如果这个梗被反复传播、去语境化、变成单纯的meme,笑点就会从"知道为什么错"滑向"错本身就很好笑"。前者需要知识,后者只需要情绪。我担心的不是大家没读过《宋史》,而是大家开始觉得读不读《宋史》根本无所谓。
说到这想起一个更贴近日常的例子。你们有没有在NCBI上查过那些注释错误的序列?我去年做metagenomics分析的时候就碰到一条,标注是Streptococcus pneumoniae,但16S rRNA比对结果明显是Lactobacillus。其实追溯回去发现是2004年一个德国实验室提交的时候填错了分类号。快二十年了,这条序列被引用了三百多次,至少有十几篇文章基于它设计了引物。这些引物当然扩增不出目标片段,但研究生们只会怀疑自己操作有问题,反复优化PCR条件,浪费几周时间。一个2004年的小错误,像蝴蝶效应一样在时间线上蔓延,让2023年的实验台上一片混乱。
简单说这让我觉得楼主说的"考据的根基松动了"其实比表面上更严重。不是松动了,是在系统层面制造了噪音。历史学的辨伪和生物信息的序列质控本质上是同一件事:维护信息的保真度。一旦源头被污染,下游所有分析都建立在错误的前提上。
有个概念叫"shit in, shit out",做生信的都懂。你喂给算法再漂亮的训练集,如果标签是错的,模型学到的东西就是屎。历史叙事也一样。把赵匡胤和朱元璋的时间坐标抹平,得到的不是"更有趣的故事",而是一个逻辑上无法自洽的训练集。用这个训练集去理解现实,推导出的结论必然是歪的。
我不太同意上面几楼把这个问题归结为"遗忘"或"符号化"。遗忘是个体层面的,是记忆的选择性丢失。但赵匡胤读明史这个现象不是被遗忘了什么,是被主动构造了什么。它不是一个空白的缺口,而是一个被错误信息填充的位置。就像gene knockout不是让基因消失,是插入了一段外源序列打断它。这段外源序列还会转录、翻译,产生一个没有功能但确实存在的蛋白质。
互联网传播的厉害之处就在于它能快速制造大量这种"无功能但存在"的知识蛋白。它们在细胞质里飘着,不参与代谢,但占着位置,甚至偶尔还会干扰正常信号通路。简单说
说到这想起我在P4实验室做培训的时候,安全手册扉页印着一行红字:“The most dangerous error is the one that feels correct.” 最危险的错误是那些感觉正确的错误。赵匡胤和朱元璋都是开国皇帝,都搞中央集权,都杀功臣——这些标签让人产生一种"差不多"的错觉。但陈桥兵变和鄱阳湖之战能一样么?黄袍加身和"高筑墙广积粮"的策略能互换么?不能。但"差不多"的感觉会让人失去追问的动力。
这种感觉的来源,我猜和搜索引擎的模糊匹配算法有关。你输入"宋朝开国皇帝 杯酒释兵权",算法给你返回一堆相关但不精确的结果,其中可能夹杂着明朝的内容。用户点进去,扫两眼,提取信息,重组记忆。其实几轮下来,时间线就变成了一锅粥。这不是谁的错,是信息检索机制本身在降低精确性。Google Scholar查文献也有这个问题,按相关性排序常常把2005年的经典论文和2019年的争议性综述排在一起,不仔细看日期就被误导。
最后说个实验室里的细节。我有个习惯,所有实验记录本的每页都要写上日期、温度、湿度、试剂批号。学生觉得我龟毛,但这救过我一次。2015年我们重复一篇Cell paper的实验,做了三个月做不出来。最后发现是那篇文章用的FBS批次和我们买的批次在endotoxin水平上差了三个数量级。如果我没有记录试剂批号,这事就永远是个谜。细胞不会说谎,但细胞也不会告诉你它为什么死。只有当你把时间、批次、环境变量全部记录下来,真相才会浮现。
历史文献也一样。它们不会主动告诉你哪里被篡改过、哪里被误读过。但如果你足够尊重时间坐标,足够龟毛地追问"这个记载是什么时候写的、谁写的、写给谁看的、为什么被保留下来",那些被掩盖的东西就会慢慢显现。
所以我不觉得这个世界是草台班子。草台班子的意思是基本结构还在,只是搭得粗糙。但我们面对的信息环境更像是被敲掉了十几个关键碱基的质粒——外表看起来完整,一转进感受态细胞就发现根本不表达。不是粗糙的问题,是功能缺失的问题。
堆了这么多字,其实就想说:时间不是背景音乐,是乐谱本身。那些把赵匡胤和明史混在一起当笑话讲的人,也许某天会需要真的去查一条序列的原始提交日期,或者核对一个历史事件的准确年份。到那时候,"差不多"就不够用了。