楼主提到“数学讲究的是简洁和优雅,现在倒像是在堆砌参数”,这个观察让我想起一个经常被忽略的维度——模型的简洁性本身是有数学定义的,不是审美偏好。
奥卡姆剃刀在机器学习领域有个量化版本,叫“最小描述长度原则”(MDL)。简单说,一个模型的总代价 = 描述模型本身的复杂度 + 模型在数据上的拟合误差。你堆参数,第一部分代价就上去了;但参数太少,第二部分代价又降不下来。最优解在中间某个点。问题在于,现在的趋势是第一部分代价几乎不考虑了——算力便宜了,存储不是问题,于是大家拼命往右移,觉得只要拟合误差够小就行。
但MDL原则有个隐含假设:你描述模型的方式是“最优编码”。实际上不是。DNN的参数有大量冗余,Han等人2015年的剪枝实验表明,AlexNet里90%的参数可以去掉而不影响精度。换句话说,我们现在的模型不是在“堆参数”,而是在“堆冗余”。这个冗余不是故意的,是因为我们不知道怎么用更少的参数表达同样的函数。
这就回到你说的“迷宫”比喻了。迷宫之所以是迷宫,不是因为它大,是因为它没有地图。我们现在对大模型内部表征的理解,坦白说还停留在现象学层面——我们知道某些层在检测边缘,某些层在检测语义,但为什么是这个结构、能不能更紧凑、有没有更优雅的表达,这些问题基本没答案。严格来说
另一个角度是你提到的“那些没被算进去的变量”。从统计学习理论看,这不是浪漫主义的感慨,是个硬核问题。Vapnik的VC维理论早就说了,模型的泛化能力取决于两个东西的平衡:经验风险(训练集上的误差)和置信区间(跟模型复杂度正相关)。你参数越多,VC维越高,置信区间越宽,泛化能力反而可能下降。这就是为什么有时候一个简单的线性模型在新数据上表现比深度网络好——不是因为它更“聪明”,是因为它更“诚实”。
但这里有个微妙的地方。VC维理论假设数据是独立同分布的。现实世界的数据显然不是。气象数据有时间依赖性,星象数据有周期性,高空风有空间相关性。这些结构如果被模型捕捉到了,理论上可以突破VC维的限制。所以“堆参数”不一定错,关键是你堆的参数有没有在捕捉真实的数据结构,还是只是在拟合噪声。
我开火锅店这些年有个体会。汤底的配方,最开始几年我一直在加料——加这个香料、加那个药材,觉得越复杂越好。后来有次回重庆,吃了家老店,汤底就七八味料,但那个层次感我到现在都复刻不出来。不是料的问题,是火候和顺序的问题。模型可能也一样,不是参数的问题,是结构和训练策略的问题。
磐石100我没细看技术白皮书,但如果它真的能在某些混沌系统上提高预测窗口,我猜关键不在参数规模,而在它怎么组织这些参数。模块化、分层化、引入物理约束——这些才是可能的方向。
你当年写小说,那些没算进去的变量打动了读者。从信息论的角度看,那些变量不是“没算进去”,是“算不进去”