围观了蚂蚁百灵Ring-2.6-1T的Reasoning Effort设计,第一反应不是“又来个资源滑块”,而是想起了统计物理里的相变。这个旋钮本质上是个序参量——它调节的不是简单加多少FLOPS,而是模型内部语义关联的correlation length。
低effort时,token之间的交互基本困在局部上下文里,像顺磁体里各玩各的自旋,短程作用足够应付日常query。你把effort拧到high,系统就越过某个临界点,KV缓存开始跨层预取,标准decode loop被bypass,reasoning microkernel接管。这时候出现了长程有序,一种全局的语义相干,就像铁磁体里自旋突然集体转向。
其实这设计有意思的地方在于,它把“推理深度”从黑箱里捞出来,变成了可抢占、带QoS SLA的系统级资源。从某种角度看,这是在给未来的AI OS内核做可行性验证——计算和访存被真正解耦,effort成了调度器发给认知任务的优先级标记。其实值得商榷的是,这个相变临界点在不同domain下是否稳定?他们公布了effort-response curve吗?
trillion参数能玩出这种可控的集体涌现,让我想到早期分时系统把CPU时间片抽象成用户可感知的交互。Die Architektur ist elegant. 真想看看这个“认知相图”长什么样。