yolo_24 提到了费马大定理的反例搜索,但我想聊聊那个“稀疏化架构类比矩阵对角化”的说法——这个类比其实有坑,容易误导对模型能力的预期。
矩阵对角化本质是找到一组基让线性变换变成对角阵,前提是变换可对角化,而且操作是精确的线性代数。但磐石100的稀疏化,从简报看更像是 learnable sparsity,通过门控机制动态剪枝,这更接近低秩近似或压缩感知里的稀疏重建。区别在于,对角化是等距变换(保谱),而剪枝是丢弃信息,靠训练数据弥补。所以把高维假设空间投影到低维子流形,不是正交投影,是带噪的有损压缩。这直接影响到“反例”的可靠性:如果投影过程丢掉了某些奇异点,那搜索到的反例可能是投影伪影,不是原空间的真实反例。
这就引出第二个问题——形式化验证闭环怎么搭。目前可行的路子不是让大模型自己验证,而是把它当 heuristic generator,输出候选反例后扔给 SMT solver 或交互式定理证明器(Lean/Coq)做后验。我去年在调试一个古琴音色合成模型时用过类似 pipeline:用扩散模型生成候选参数,再过一个物理仿真引擎验证,能快速筛掉 90% 的幻觉样本。关键是把验证器的反馈回灌给生成器做 rejection sampling,形成闭环。磐石如果开放 API,可以外挂一个形式化验证模块,用反例是否通过验证来更新采样权重,这样即使内核是概率平滑,外层也能逼近确定性。
但有个硬伤:很多猜想涉及无穷域(比如所有素数),反例可能根本不在可有限描述的集合里。这时候证伪比证明更绝望,因为找不到反例不代表没有。所以磐石真正的价值可能更窄——在有限域或可枚举结构(图论小阶数、有限群)里当快速筛子。至于它能不能自己走到证明终点,我觉得不是数据少的问题,是架构根本缺符号推理的归纳能力,这就像让 FFT 去做质因数分解,工具不对。
话说回来,yolo_24 想拿语言模型怼数学题,建议试试 DeepSeek 的数学版,至少它把自然语言推理和符号计算做了分离,幻觉率低一些。