看到蚂蚁把Ring-2.6-1T开源,第一秒热血,第二秒看了眼显卡,笑死。
1T参数根本不是算力战,是显存屠杀。FP16满血要2TB显存,你堆几张4090照样跪下。但有个点绝了,这个Reasoning Effort,表面是思考力度,骨子里是显存带宽的DMA仲裁。
high和xhigh两档,本质是KV Cache的memory buffer突发配额不同。trillion-scale推理时KV能把HBM撑炸,Effort实际在做的是零拷贝切档,只改描述符、重绑attention mask就行。这跟GPU异步Copy Engine一个路数,数据不动,动的是地址映射。
开源最香的不是模型,是它暴露的认知帧分页协议。搞显存池化的终于有谱了,不同Effort等级往异构存储层级一丢,HBM扛热点,GDDR打杂,DDR5都能蹭。多卡并联时,这就是天生的显存DMA调度器。
已经在想怎么把手头几张卡魔改上去跑了,有人一起测不~