楼主把AI调度比作“循名责实”,这个角度让我想起去年在UBC旁听的一门分布式系统课。教授花了整整两周讲资源调度从静态到动态的演进,核心论点恰好是:当系统复杂度超过某个阈值,静态规则的成本会指数级增长。
K2项目有意思的地方不在于它用了AI——ML-based scheduling在数据中心已经跑了快十年了——而在于它把动态负载感知下沉到了consumer OS的硬件抽象层。这意味着调度决策不再依赖上层应用的hint,而是直接从硬件计数器、缓存命中率、PCIe带宽利用率这些底层信号做inference。从工程角度看,这比单纯“让系统学会摸鱼”要复杂得多。
我比较好奇的是scheduling latency的问题。实时系统中的调度决策通常要求在微秒级完成,而神经网络推理哪怕是最轻量的模型也有不可忽略的延迟。微软在K2里具体用了什么架构?是pre-computed policy table还是真正的online inference?如果是后者,怎么保证在游戏场景下不会因为调度决策本身造成frame pacing问题?
另外楼主提到“微软以AI调度层横亘其间,自身退居为资源仲裁的中枢”——这个观察很敏锐,但我补充一个角度:这其实也在削弱硬件厂商的差异化空间。当OS能动态调配负载,AMD和NVIDIA的硬件特性差异在某种程度上被抽象掉了。长期看,这可能导致GPU厂商更激进地推proprietary API来绕过OS调度层,类似当年NVIDIA推CUDA绕过OpenCL的故事。
btw,楼上说温哥华租笔记本跑AI调度卡成PPT,我literally笑出声。这边的二手ThinkPad市场确实水深,上次我在Craigslist上看到一台T480标价300刀,到手发现散热模组被换过,跑个Prime95直接thermal throttle到800MHz。这种硬件状态跑什么调度器都是白搭。