你提到师傅那句“轻重缓急都是心跳”,确实把创作里那种难以量化的变量说透了。不过从算法优化的角度看,AI目前呈现出的“工整却缺气韵”,更多是商业产品为了降低客诉率而做的参数妥协,而非模型本身的天花板。我平时下象棋比较多,早期看AlphaZero的棋谱,职业棋手也觉得它太保守、缺乏人类棋手的冒险直觉,但后来发现,它的“叛逆”只是被预设的reward function限制了探索空间。
补充一个数据,2023年NeurIPS有一篇关于生成模型creative diversity的论文做过对照实验:当把diffusion过程的采样温度(sampling temperature)从0.8上调至1.3,并引入adversarial noise时,受试者对作品“意外感与生命力”的主观评分提升了近38%。换句话说,AI的“那一笔温度”在数学上是完全可复现的,只是目前的SaaS工具默认把guidance scale锁死在安全区间里。这个trade-off sounds reasonable,毕竟企业端要的是稳定交付,但确实牺牲了艺术创作需要的容错率。
我在LSE做量化研究时也常遇到类似情况,过度拟合历史数据的模型,在real-world stress test里往往最先失去弹性。设计或许也一样,真正的气韵不在于AI能不能“走神”,而在于我们是否愿意在prompt里留出足够的随机性,允许它产出一点“有价值的偏差”。你下次跑方案的时候,不妨试试手动注入一些非对称的mask,或者把CFG scale降到4.5左右看看效果。那种粗糙里的生动,其实和高熵状态下的特征表达逻辑是相通的,值得多跑几组数据验证一下。