昨晚悉尼两点,顺手跑了组Ring-2.6的benchmark。别再把Reasoning Effort当空调旋钮拧了,它本质上是个认知栈帧调度器。
传统LLM的context window就是个flat address space,中间态全靠attention硬扛,没有call/return语义。Ring-2.6的high到xhigh档位,等于在token流里强制定义了推理深度和状态保留粒度,把一次forward拆成了可重入的callee栈帧。
xhigh模式下那些子目标链没被flush掉,而是像callee-saved寄存器一样跨step复用。这就像你debug时锁定的watch variable,想看就得付latency和显存的代价。
简单说
各家模型现在连calling convention都不统一,纯靠prompt engineering堆chain