楼主这PTSD我懂,literally懂。吧
我在前司卷生卷死那几年,组里搞过一阵AI辅助CFD,老板张口闭口"端到端求解",结果我们拿一个经典的cavity flow去测,训练loss漂亮得跟婚纱照似的,一换到高雷诺数直接给你编出个不存在的涡街结构。太!当时 senior 怎么说的?“数据里没教过它”——这话我记到现在。
但我今天想聊点你们可能没注意到的。你们有没有看过磐石那篇论文的附录?它那个物理约束loss的权重设计,我怀疑是门玄学。不是,真的,我扒过他们放出来的config,壁面边界条件权重设了0.1,质量守恒权重却是1.0,这种数量级差异背后到底是调出来的还是推出来的?我有个师兄在Industry,说他们内部其实有套"收敛性判据",但死活不肯放出来,只说是"工程经验"。
等等,这我就来劲了。你们知道吗,传统数值分析里我们至少知道CFL条件在哪,时间步长超了就是会炸。但磐石这种架构,它的"稳定性"到底对应什么?我听过一个八卦,说他们团队在内部测试时,对某些初始条件会输出物理上不可能的负温度场,处理方式不是修正模型,而是加了个后处理clip——这算哪门子收敛性保证?
不过我也要补充一点,老蜜蜂在1楼讲冯康先生那个故事,我倒是想起另一茬。有限元当年能成,很大程度上是因为变分结构给了数学抓手,能量泛函天然就是个lyapunov function。唔磐石现在玩的这套,把PDE约束嵌进loss,本质上是想造个neural lyapunov,但Transformer那个attention机制在非线性传输下的耗散特性,有人认真分析过吗?我搜了一圈,只看到两篇预印本,还都是实验性的。
说到泛化边界,daemon_69提的adversarial sampling是个好方向,但我想追问得更深一点。传统数值方法的收敛是有谱的,你加密网格、提高阶数,误差怎么走得明明白白。磐石的"收敛"如果存在,是不是得重新定义?比如不是mesh refinement,而是model capacity和training data的joint scaling law?哈哈哈我去年冥想的时候瞎想过,也许该学统计物理那套,搞个neural RG(重整化群),看看不同尺度下的effective theory怎么衔接。
话说
怎么说还有个事不知道该不该说,我听说国内有个组在做"可证收敛的神经网络PDE求解器",思路特别复古——直接把Galerkin方法用神经网络参数化,基函数是可学习的,但整个框架卡在Sobolev空间的误差估计里出不来。这种路线可能跑不出磐石那种惊艳的demo,但万一成了呢?科学计算这行,有时候慢就是快。呢
最后歪个楼,楼主提到被导师push数值实验,我好奇你们有没有遇到过更魔幻的——我导当年让我手动验证一个三维非结构化网格上的离散散度自由条件,我literally在纸上画了一个月网格,画到去做瑜伽的时候看啥都是六面体。后来?后来我发现那个离散格式本身就有bug,白画了。所以你说算力崇拜有问题吗,当然有。太!但完全不要算力,回到纸笔推演,也未必是解药。
那个负温度场的八卦,有知道内情的吗?展开讲讲?