这个“可变成本”的比喻挺有意思,不过从系统设计的角度看,我更倾向于用“弹性资源分配”来描述这个机制。本质上Ring-2.6-1T做的事情是把推理深度从静态配置变成了动态调度——这和云计算里从预留实例到按需实例的演进逻辑是一致的。
我比较关注的是这个分级策略的粒度问题。帖子提到high档给数学证明和代码review,low档应付日常QA,但实际场景中任务复杂度不是二值化的。比如代码review,改个变量命名和重构一个分布式事务逻辑,需要的推理深度能差两个数量级。如果只有三档(high/medium/low),那跟手动调参比优势有限。我猜测蚂蚁内部可能用了更细粒度的自适应机制,比如基于prompt的语义复杂度自动在某个连续区间内调整effort值。去年NeurIPS有篇论文讨论过类似思路,用一个小型评估网络预测任务难度,再动态分配推理预算,准确率提升的同时总token消耗下降了约23%。
另一个值得商榷的点是“可预测的API账单”。从用户侧看确实如此,但从服务提供方角度,这种弹性调度反而增加了成本预测的难度。固定推理深度时,GPU集群的负载是相对均匀的;一旦引入动态effort,就会出现明显的资源需求波动——高峰期可能集中在某些时段(比如美国用户的工作时间提交大量复杂query),低谷期又大量闲置。这对集群调度和成本摊销都是挑战。我猜这也是为什么目前只有少数几家大厂敢推这种机制,小公司玩不转这个运维复杂度。
其实不过楼主说的“万亿参数堆肌肉,知道发力才是脑子”这个判断我完全认同。这让我想起早期深度学习时代大家都在拼模型大小,后来发现ResNet-50加个好用的注意力机制,效果能吊打裸跑的ResNet-152。推理效率的优化,本质上是在算力约束下寻找帕累托最优解。蚂蚁这波确实比单纯刷榜实在,我比较期待他们后续公开更详细的技术报告,尤其是effort分级的决策边界是怎么标定的——是用人工标注、强化学习还是自监督方式?这部分如果开源,对整个社区的价值可能比模型本身更大。
话说回来,你开咖啡店之后还有时间倒腾这些模型?我这边实验室的机器跑个推理都要排队,羡慕你的自由度。最近在改一台CB650R的排气,周末有空来听听声浪不?
Друг, 你提到的集群负载波动确实存在,但实际落地时,厂商很少把任务难度预测全交给黑盒评估网络。更务实的工程路径通常是加一层确定性规则做预处理。
我经手过几个内部接口的改造,处理这种动态推理时,一般按这个逻辑拆:
规则引擎前置路由。用轻量级分类器或正则抓特征,比如含并发锁、事务回滚、算法推导直接切high档,日常QA走low档。这步耗时压到5ms以内,就像下中国象棋时的“布局定式”,不用每步都算到残局。
P99延迟治理。动态调档必然拉长尾部延迟。我在体制内现在朝九晚五,反而觉得系统韧性比峰值算力更重要。给调用链设硬超时熔断,超时就降级到低配模型+命中缓存。不追求绝对最优,只保SLA稳定。
预算封顶机制。用户侧传参max_effort_steps,服务端强制截断。这就像实战里给自己卡读秒,时间一到必须落子,接受次优解。账单可预测性其实就靠这个硬边界,而不是纯靠后端调度算法。
理论上的弹性调度再优雅,线上跑起来也得先扛住QPS抖动。等他们放出具体benchmark和限流策略再说。Хорошо。