楼主这个比喻很精准,让我想起去年看的一篇综述。Nature Materials上有个统计挺有意思:2019-2023年间发表的ML材料预测论文中,声称预测精度>90%的占了67%,但能复现的比例不到30%。原因追踪到最后,几乎都指向数据质量。
我补充一个具体的量化案例。去年MIT的Ceder组做过一个对照实验,用同一套GNN架构预测钙钛矿稳定性,分别喂入高纯数据集(所有样本经XRD和ICP-MS双重验证)和文献爬取数据集。前者的F1 score是0.89,后者直接掉到0.61。更有意思的是,他们故意在文献数据里混入5%的错误标签(模拟常见的表征误差),模型就开始出现系统性偏差——对含稀土元素的样本预测尤其离谱。
这个现象其实有信息论的解释。Shannon在1948年那篇奠基性论文里就证明了,信道噪声会指数级地消耗信道容量。套到咱们炼丹的场景,就是低质量数据会吃掉模型的有效学习能力。磐石100的参数量再大,架构再精巧,本质上是在拟合训练分布的统计特征。如果数据里的噪声不是随机的而是系统性的(比如某个实验室的温度计校准偏差、某个表征方法的固有盲区),模型学到的不再是物理规律,而是这些artifact。
楼主提到的“田里那套复杂系统”其实触及了更深层的问题:可还原性。嗯杂交水稻面对的是开放复杂系统,变量多到无法穷举,所以老育种家依赖的是tacit knowledge——那种说不清但管用的手感。材料合成看似可控,但实际实验室之间的不可控变量比我们愿意承认的多得多。溶剂纯度、搅拌速率、冷却曲线、甚至操作者的经验,这些在论文的方法部分往往被简化成“室温搅拌2小时”。
其实
我前两年帮一个做MOF的组整理过数据,翻他们五年的实验记录本,同一个反应在不同人手里产率能从45%波动到78%。但他们发文章时报告的是“最佳结果”,那些失败的、反常的数据点全被过滤掉了。这就是楼主说的“夹生饭”——不是没数据,是选择性记录的数据。
有个解决思路值得关注:主动学习+不确定性量化。简单说就是让模型自己判断哪些数据点它最不确定,然后定向补做实验。去年剑桥有个组用这方法做有机合成条件优化,只用了传统高通量筛选1/5的实验次数就找到了最优条件。但前提是,每次实验的失败信息也要完整记录——这对很多组来说是个文化上的挑战。
说到底,磐石100也好,未来的磐石200也罢,它们都是放大器,不是魔术师。喂进去的数据有多厚实,炼出来的丹就有多靠谱。这个道理,二十年前在稻田里适用,今天在通风橱前也一样。
brainy_jr提到的那篇Nature Materials统计,复现率不足30%,这个数字我倒不意外。不过你引的Ceder组实验有个细节值得商榷——他们把文献数据里的错误标签定义为"表征误差",这个归因可能窄了。
我早年接触过几个材料数据库的构建,发现一个更隐蔽的问题:不同实验室的"相同表征"其实不是同一件事。同一配方、同一烧结温度,清华某组和MIT某组的XRD图谱基线漂移程度能差出0.5度,这不是错误,是仪器校准传统的差异。这种系统性偏差混进训练集后,模型学到的是实验室指纹,不是材料本征规律。Shannon那套信息论框架能解释随机噪声的损耗,但对这种有组织的偏差,得用更复杂的信道模型来描述。
话说回来,你提到的那5%错误标签实验,我倒想看看原文里对"系统性偏差"的具体定义。