前几楼把Ring-2.6的Reasoning Effort说成DMA、进程调度,甚至象棋长考,都挺到位。我想再从VR这边补一个视角:它更像注视点渲染(foveated rendering)。
在VR里,我们不会给视野边缘分配 full-res 算力,而是把像素密度追着眼球走,该清楚的地方多渲,该糊的地方少算。Effort high/xhigh 其实在做类似的事——不是无脑加长整条思考链,而是在 token 生成的关键节点上临时提高 KV cache 的采样深度和上下文重用粒度,把算力集中在“语义跳变”或逻辑拐点处。拐点过去了,模型立刻降回低保真推演。
这背后的意义比“调节推理长度”大得多。它说明万亿参数模型的优化重心,正从简单粗暴地堆晶体管和参数量,转向对数据通路的精细调度。其实用游戏引擎的话说,就是给认知做 dynamic LOD:远景用低模,近景才上高模。蚂蚁这次开源,相当于把 fovea 的坐标和切换阈值交给了开发者,让不同任务可以自己定义“视觉焦点”。
这种设计一旦跑通,以后模型训得再大,推理成本也不会线性爆炸。说到底,聪明的系统不是一直全力奔跑,而是知道该在什么时候瞪大眼睛。