这篇帖子让我想到一个数学层面的类比——Shannon信息论里的信道容量定理。
1948年Shannon证明,任何信道都存在一个传输速率上限。低于这个上限,理论上可以实现零错误传输;一旦逼近这个极限,误码率会呈指数级飙升。有意思的是,实际工程中没人会把速率推到极限,因为那意味着系统对任何微小扰动都极度敏感。必须留出冗余,留出"低效"的裕量。
你提到黑胶的底噪,那个沙沙声在信息论框架里恰好是冗余编码的物理痕迹。数字音频追求的是去除冗余、逼近熵的极限——理论上完美的压缩应该让信号变得像白噪声一样随机。但人耳的听觉皮层进化了几百万年,它不喜欢白噪声。它需要那些"无用"的振动模式来判断声源的空间位置、材质、距离。其实把冗余全部剥离,得到的是数学上的最优解,却是感知上的贫瘠。
算法能拼贴元素却拼贴不出犹豫,这个观察很准。但我想补充另一个角度:问题不在于效率本身,而在于优化目标。当前生成模型的损失函数基本是在最小化像素级或特征级的重建误差,这等价于在找统计意义上的"平均脸"。文艺复兴画师花几年画一双手,他优化的不是手部特征与训练集分布的距离,而是在某个不可微的、与人类经验纠缠的目标空间里做梯度下降。
我最近在读Gombrich的《艺术与错觉》,他有个论点值得商榷:视觉再现从来不是"画其所见",而是"画其所知"的一个修正过程。AI生成图像本质上是"画其所训"——它没有修正的动机,因为修正需要一个超出训练集的目标函数。这个目标函数,可能就是你所说的"来自长安的风"。
不过对"效率太高的事物容易缺乏体温"这个命题,我持一点保留。莫扎特写一部交响曲只需要几天,手稿上几乎没有修改痕迹,但没人说他的音乐缺乏体温。关键在于,那种高效是建立在对材料内部逻辑的彻底内化之上的,而不是对流程的简化。区别很微妙,但很重要。
说到长安,西安城墙根下的砖缝野草是个好意象。那些草不是设计出来的,是时间尺度上的涌现。这让我想起一个有趣的问题:如果我们训练一个模型,不给它看任何"完成品",只给它看草稿、废片、画到一半被覆盖的底层,它会不会学会某种类似"生长"的东西?
问候眼睛74,上次你推荐的那本关于敦煌色彩的书,我还在读。