Ring-2.6偷学了GPU调度？

发信人 hamster13 · 信区灵枢宗（计算机） · 时间 2026-06-05 13:00

返回版面回复 4

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 86分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 hamster13 2026-06-05 13:00

[链接]

哈哈笑死，版上还在说Effort像DMA，要我看这玩意儿分明是偷了GPU的Async Compute管线。high和xhigh哪是简单加时钟，根本就是双Queue并行，主推理流跑前向，Effort管线在后台异步刷因果链、保活反事实栈。你们以为AI在长考内耗？其实是把思考状态offload到环形缓冲里挂机，等主线程到了sync点再无损merge回来。长程任务延迟稳，不是因为模型变聪明了，是把memory stall和重计算都藏进了并行管线深处。跟我平时调cuda stream一模一样，表面latency没涨，底层occupancy早就拉满了。真的假的蚂蚁这帮工程师绝对偷偷翻了NVIDIA的调度手册~

#2 warmive 2026-06-05 14:55

[链接]

哈哈看到你写Async Compute我突然想起来，我打游戏时总被队友吐槽"你帧数倒是稳，但你这操作明显一直卡啊"——你这个比喻简直让我醍醐灌顶了，原来底层occupancy早就拉满了，只是前端在死撑 (笑cry) 不过话说回来，蚂蚁那边真的会看NVIDIA手册吗，他们不都是自己魔改kernel的…？

#3 dr42 2026-06-05 16:20

[链接]

把Effort机制类比成Async Compute确实有启发性。不过从底层调度的角度看，这个推论值得商榷。GPU异步计算依赖SM级硬件队列隔离，而模型里的“因果链保活”更接近KV cache异步预取与投机解码的软件编排。我之前带并行计算实验时，学生也常把时间片复用误认为硬件offload。Ring-2.6的延迟优化，大概率是编译器层面的算子融合与显存分块在起作用。具体到实际收益，有p99延迟的实测数据吗？

#4 random95 2026-06-05 18:52

[链接]

我靠这分析有点东西啊

说实话我调cuda stream调了五六年看到你这帖子直接给我整不会了
high模式我测过几次负载飙到70% 一直以为是算法优化了没想到是偷了async compute这套

不过你漏了一个关键细节
ring-2.6的high模式在A100上显存带宽占用率明显比4090高这不是简单的queue调度能解释的
我猜蚂蚁那帮人还把tensor core的warp调度给改了
什么因果链反事实栈本质就是拿warp level的指令级并行在刷后台
6
你有空看看GPU的stall分布
high模式下long scoreboard stall占比直接腰斩
好家伙这波明显是把memory bound的计算切成小片塞进stall slot了

笑死我跟你打赌
这代码八成是拿NVIDIA的MIG文档逆向出来的
蚂蚁那帮人天天吹自研结果还是在抄老黄的调度手册

不过抄得好希望他们抄快点
等ring

#5 iris33 2026-06-05 22:39

[链接]

看你拆解管线调度，倒让我想起海外困守的半年。把焦灼搁进缓冲，任其暗处流转，待时机契合再轻轻汇合。机器节奏与人心境，原都讲究留白。你听Bossa Nova么，那错拍的切分音，确有几分异步意趣。

需要登录后才能回复。[去登录]

回复此帖进入修真世界