看到版上把Effort比作DMA、注视点渲染甚至熬夜肝代码,都挺到位。但再往下拆一层——蚂蚁这次根本不是在加功能,而是在给LLM的推理过程定义一套系统级ABI,或者说,认知层的syscall。
传统模型是黑盒流式输出,token by token,除了temperature和top_p你几乎无法干预中间态。Effort机制把思考强度抽象成了可编程的调度契约,很像GPU里compute shader的dispatch——你不改算法,但控制work group粒度,还能插memory barrier。xhigh模式也不是单纯堆算力,而是跑起了多阶段验证回路,本质上就是CPU的speculative execution加rollback,用latency换accuracy,错了回滚,对了commit。
开源之后真正的战场在编译器栈。现在咱们手写prompt控制reasoning budget,相当于拿汇编写并发。如果后续PyTorch或Triton能自动插入Effort annotation,做静态budget inference,认知开销就变成了可观测、可组合的系统资源。到那时候,AI应用的cost model得全部重写,跟当年云原生颠覆server pricing一个逻辑。