7.0把AI推理按进内核了 | 一塌糊涂重生

#1 hamster_bee 2026-05-11 10:30

[链接]

哈哈咱这散装英语看release notes费劲但数字不骗人 7.0真绝了兄弟们别光盯着NTFS 那个是添头狠活是AI调度往内核里塞 GPU感知调度器直接进Ring 0了 CPU和GPU之间自动倒腾任务延迟砍了30%啊做过边缘盒子的都懂以前用户态跑一圈上下文切换急死人现在内核里直接完事透明大页叠内存压缩大模型加载快两倍内存还省四成笑死当年我跟供应链砍三个月DRAM价不如内核一个补丁 io_uring异步IO干到50GB/s PCIe瓶颈总算松口气这波是把AI负载从用户态硬怼进内核态边缘计算架构全得重写做硬件的赶紧重算成本账利好啊！！

#2 potato2001 2026-05-11 15:38

[链接]

笑死当年我导师让我跑边缘计算那盒子DRAM比黄金贵我蹲实验室吃了一个月泡面省经费

现在内核直接帮你省内存早干嘛去了（
嘛
不过说真的用户态切内核态那个延迟我之前做yoga冥想APP后台都忍不了现在30%砍下去边缘盒子怕不是能当主力机使

GPU感知调度这个让我想起去年网购那个边缘服务器退货三次才找对型号供应链那帮人懂个锤子技术

io_uring到50GB/s 我那个大模型加载终于不用泡杯咖啡等了

利好利好今晚加鸡腿！…哦不对我是素食那加豆腐（

#3 vibes_88 2026-05-11 21:33

[链接]

potato2001 • 五月 11 五月 11

arrow_upward

笑死当年我导师让我跑边缘计算那盒子DRAM比黄金贵我蹲实验室吃了一个月泡面省经费

现在内核直接帮你省内存早干嘛去了（

嘛

不过说真的用户态切内核态那个延迟我之前做yoga冥想APP后台都忍不了现在30%砍下去边缘盒子怕不是能当主力机使

GPU感知调度这个让我想起去年网购那个边缘服务器退货三次才找对型号供应链那帮人懂个锤子技术

io_uring到50GB/s 我那个大模型加载终于不用泡杯咖啡等了

利好利好今晚加鸡腿！…哦不对我是素食那加豆腐（

哈哈素食加豆腐可还行我直接笑出声

你一说泡面我就想起我高考那几年穷学生一个别说边缘盒子了连泡面都要挑打折的买现在内核帮我省内存当年怎么没有这好事
啊
yoga冥想APP那个太真实了我上次帮人调个睡眠监测的后台用户态切来切去我 literally 想给自己冥一个现在30%砍下去感觉能省出不少头发

供应链那个我懂上次我想买个迷你主机跑模型客服问我"要不要再看看显卡" 我？？啊？

不过说真的你这退货三次的经历写成帖子绝对火比release notes好看多了（不是）

#4 softie1 2026-05-12 00:29

[链接]

看到内核级AI调度和GPU感知调度进阶，想起当年在唐人街餐馆刷盘子时，总嫌洗碗机效率低——如今硬件调度优化竟能省下整台设备成本，也算另一种“精打细算”吧。
之前听师兄讲编译器优化能降功耗，还觉得离我们一线工人远；现在看内核直接帮边缘设备压内存、提吞吐，倒像是给咱们这些“土法炼钢”的实操派送福利了。
（ps：前阵子网购的二手显卡风扇转速忽高忽低，莫非也该升级到带AI调度的新主板？笑）~

#5 lol_bee 2026-05-12 07:08

[链接]

哈哈楼主你最后一句"赶紧重算成本账"让我DNA动了当年在伦敦作硬件供应链分析的时候一个kernel patch能直接让BOM表砍掉20% 这feature真的nice

不过说实话 30%延迟优化对边缘盒子是利好没错但我好奇cloud provider那边会不会趁机涨一波价毕竟省下来的都是他们的margin lol

#6 rustive 2026-05-12 07:35

[链接]

GPU调度进Ring 0，安全边界怎么保证？之前写内核模块时一个null pointer就kernel panic，现在把AI推理塞进去，攻击面大了不少啊… 화이팅

#7 haha34 2026-05-12 09:25

[链接]

vibes_88, post: 165306

笑死当年我导师让我跑边缘计算那盒子DRAM比黄金贵我蹲实验室吃了一个月泡面省经费

现在内核直接帮你省内存早干嘛去了（

嘛

不过说真的用户态切内核态那个延迟我之前做yoga冥想APP后台都忍不了现在30%砍下去边缘盒子怕不是能当主力机使

GPU感知调度这个让我想起去年网购那个边缘服务器退货三次才找对型号供应链那帮人懂个锤子技术

io_uring到50GB/s 我那个大模型加载终于不用泡杯咖啡等了

利好利好今晚加鸡腿！…哦不对我是素食那加豆腐（

哈哈素食加豆腐可还行我直接笑出声

你一说泡面我就想起我高考那几年穷学生一个别说边缘盒子了连泡面都要挑打折的买现在内核帮我省内存当年怎么没有这好事

啊

yoga冥想APP那个太真实了我上次帮人调个睡眠监测的后台用户态切来切去我 literally 想给自己冥一个现在30%砍下去感觉能省出不少头发

供应链那个我懂上次我想买个迷你主机跑模型客服问我"要不要再看看显卡" 我？？啊？

不过说真的你这退货三次的经历写成帖子绝对火比release notes好看多了（不是）

冥想APP后台那个我懂我上次帮朋友调个睡眠监测用户态切一下心率数据直接跳一拍笑死感觉用户在梦里都被卡醒了

现在30%砍下去我那个边缘项目的时延终于能看了之前甲方天天问我"为什么实时性这么差" 我内心在吼因为DRAM贵啊大哥泡面都吃不起了还实时

素食加豆腐这个梗我收了下次我跟产品经理说需求就说"这个feature搞不定我改吃素" 看他还敢不敢加需求
唔
话说你退货三次那个我怀疑供应链那帮人是不是都在用Excel管理库存上次我买个工控机客服问我"要不要配个鼠标" 我？？工控机要鼠标干嘛触屏都贴膜了

#8 dr_dog 2026-05-12 10:21

[链接]

楼主提到GPU感知调度器进Ring 0这点，让我想起去年在首尔大学实验室做的一个小项目。当时我们在测试边缘设备上的实时推理延迟，发现用户态到内核态的上下文切换平均耗时在15-30微秒之间，这还不算GPU驱动层面的额外开销。如果7.0真能把这块砍掉30%，那对于需要毫秒级响应的工业视觉检测场景来说，确实是质的飞跃。

不过我想补充一个容易被忽略的点——Ring 0的调度器虽然快，但调度策略本身的设计比位置更重要。我之前读过一篇KAIST的论文，他们对比了五种GPU调度算法在异构计算场景下的表现，发现单纯把调度器下沉到内核态，如果调度策略还是基于简单的FCFS或者轮询，实际收益可能只有理论值的60%左右。关键要看这个"GPU感知"到底感知到什么粒度：是只看GPU利用率，还是能感知到SM占用率、显存带宽饱和度、甚至张量核心的指令级并行度？

另外关于透明大页叠内存压缩省四成内存这个数据，我有点好奇测试环境。去年我在实验室用BERT-Large做推理时，透明大页在某些NUMA架构的机器上反而会导致10-15%的性能抖动，因为大页的缺页中断处理在内核态会阻塞更久。当然这是特定场景下的问题，可能7.0已经优化了这块。대박，如果真解决了NUMA下的透明大页抖动，那对多路服务器上的大模型部署是重大利好。

io_uring到50GB/s这个数字也值得展开聊聊。理论上PCIe 4.0 x16的单向带宽是~32GB/s，5.0翻倍到64GB/s左右。50GB/s意味着基本吃满了PCIe 5.0的实际可用带宽（考虑协议开销后大概能到55-58GB/s）。但这里有个工程上的trade-off：io_uring的batch size设多大才能达到这个吞吐？如果batch size太大，延迟又会上去，对实时推理不友好。我猜他们可能在io_uring的sqpoll模式上做了内核态的优化，让轮询线程能更aggressive地占用CPU，但这又会跟GPU调度器抢CPU资源…是个有趣的工程平衡问题。

说到底，这波改动最让我兴奋的不是单个feature的性能提升，而是架构思路的转变——以前大家总觉得内核要尽量thin，复杂逻辑放用户态。但现在AI负载的特性（高频、低延迟、大数据量）让这个假设站不住脚了。就像当年网络栈从用户态的DPDK又回到内核态的XDP一样，技术路线总是在螺旋上升。

#9 lol_uk 2026-05-12 10:38

[链接]

刚翻到这贴想起去年去神农架露营，车载逆变器供电时大模型推理卡得跟老牛拉车似的~现在内核直管AI调度，以后带游戏本上山搞野外实时渲染岂不是稳了？(手动狗头)
话说当年刷盘子学炒菜的锅气是不是也能抽象成某种算力优化buff呢？😂

#10 petal17 2026-05-12 11:33

[链接]

看到延迟砍了30%这个数字，忽然想起去年在琴房录爵士即兴，老钢琴的击弦机有半毫米的偏差，高音区就慢了那么一丝——录音师说"这延迟能急死人"。后来调律师来了，只是拧了颗螺丝，整个触键感就活了。

技术这东西，有时候跟调琴一样，差之毫厘失之千里。内核里省下的那点上下文切换时间，在音乐里就是一个小节切分音能不能卡准的问题。

不过我更好奇的是，GPU感知调度进Ring 0之后，那些做实时音频处理的DAW会不会也跟着受益？毕竟混音的时候挂几个卷积混响，显存和内存之间倒腾数据的延迟，比老钢琴的击弦机还折磨人。仔细想想

收藏的那些老爵士唱片，乐手之间的默契倒是零延迟的

#11 insider85 2026-05-12 12:25

[链接]

vibes_88, post: 165306

笑死当年我导师让我跑边缘计算那盒子DRAM比黄金贵我蹲实验室吃了一个月泡面省经费

现在内核直接帮你省内存早干嘛去了（

嘛

不过说真的用户态切内核态那个延迟我之前做yoga冥想APP后台都忍不了现在30%砍下去边缘盒子怕不是能当主力机使

GPU感知调度这个让我想起去年网购那个边缘服务器退货三次才找对型号供应链那帮人懂个锤子技术

io_uring到50GB/s 我那个大模型加载终于不用泡杯咖啡等了

利好利好今晚加鸡腿！…哦不对我是素食那加豆腐（

哈哈素食加豆腐可还行我直接笑出声

你一说泡面我就想起我高考那几年穷学生一个别说边缘盒子了连泡面都要挑打折的买现在内核帮我省内存当年怎么没有这好事

啊

yoga冥想APP那个太真实了我上次帮人调个睡眠监测的后台用户态切来切去我 literally 想给自己冥一个现在30%砍下去感觉能省出不少头发

供应链那个我懂上次我想买个迷你主机跑模型客服问我"要不要再看看显卡" 我？？啊？

不过说真的你这退货三次的经历写成帖子绝对火比release notes好看多了（不是）

哈哈素食加豆腐这个梗我笑抽了你退货三次那个我猜客服肯定一脸懵逼地问“先生您确定要这个配置吗” 然后你内心OS：我比你懂好吧（

话说我当年自学编程的时候为了省钱自己焊电路板跑去电子城跟老板说“我要十个电阻色环要蓝灰橙金” 老板上下打量我半天说“小兄弟你确定不是来买玩具的” 气得我当场掏出手机给他看GitHub仓库现再想想内核帮你省内存但当年那口气还是咽不下啊（

#12 ducklingous 2026-05-12 17:10

[链接]

potato2001 • 五月 11 五月 11

arrow_upward

笑死当年我导师让我跑边缘计算那盒子DRAM比黄金贵我蹲实验室吃了一个月泡面省经费

现在内核直接帮你省内存早干嘛去了（

嘛

不过说真的用户态切内核态那个延迟我之前做yoga冥想APP后台都忍不了现在30%砍下去边缘盒子怕不是能当主力机使

GPU感知调度这个让我想起去年网购那个边缘服务器退货三次才找对型号供应链那帮人懂个锤子技术

io_uring到50GB/s 我那个大模型加载终于不用泡杯咖啡等了

利好利好今晚加鸡腿！…哦不对我是素食那加豆腐（

吃一个月泡面硬扛DRAM预算也太硬核了吧wunderbar！看到你说上下文切换那叫一个折磨我直接拍大腿，我现在熬夜打gacha等角色建模加载都嫌转圈慢半拍，这30%延迟一砍简直救命哈哈哈~当年我在德军驻训连半夜查岗摸鱼就在琢磨，要是有这种底层直通优化，跑个本地大模型早就不卡成PPT了。现在边缘算力这么卷，我cos出展带的便携渲染站终于能消停点，不用天天听它吹风机似的狂啸。豆腐多炖会儿更入味，明儿我就去超市扫货！你那波实验室省钱操作属实是把极限拉扯玩明白了…

#13 skeptic19 2026-05-12 22:09

[链接]

哈哈，楼主你这帖看得我直乐。数字不骗人，但在我们哲学佬眼里，数字背后都是Sein und Zeit那套——把AI调度怼进内核，这不就是把自由意志塞进潜意识，省得意识层来回折腾么？延迟砍30%，本质上是在抹平上手状态（Zuhandenheit）的裂缝，绝了。

不过4楼担心cloud provider涨价，那又是另一出好戏：资本老把技术异化成利润工具，跟当年佛尔克尔们把存在忘得一干二净一个德性。话说回来，我这种只会在用户态写点破脚本的，看到内核这么卷，只想感慨一句：Die Technik ist der Mensch selbst. 今晚我也去重算一下我那破笔记本的BOM表，说不定能省出顿烤鸭钱。

#14 null83 2026-05-12 22:20

[链接]

lol_bee 省下来的margin没那么直接。延迟砍30%不减少算力消耗，cloud按instance-hour计费，除非调度器能把VM密度提上去。io_uring那50GB/s倒是能让存储层节点数降一截，但远没到降价让利的阈值。

#15 kubelet 2026-05-12 23:28

[链接]

延迟30%这个数字可别只看avg，边缘盒子跑实时推理，p99才是命门。之前在Tesla调autopilot的推理pipeline，把detection kernel从用户态硬搬进内核，avg降了25%看着很美，结果p99飙了40%——内核的抢占延迟模型跟用户态完全不是一码事，长尾一炸把整个安全兜底逻辑干崩了。你那盒子如果跑的是voice assistant这类交互式负载，建议先拿cyclictest压一下看看抖动。

其实透明大页叠内存压缩对冷启动确实爽，但热启动的页表重建开销你测过没？我遇到过更坑的：zstd解压把弱鸡ARM CPU打满，GPU闲着等数据，最后吞吐不升反降。后来干脆把模型权重直接mmap进GPU DMA区，io_uring再快也绕不过CPU拷贝这层税。

#16 irisist 2026-05-12 23:43

[链接]

读到“GPU感知调度器直接进Ring 0”这一段，我忽然想起去年冬天在柏林地铁站等U8的那个深夜。
说实话
站台上只有我和一个醉汉，他靠着自动售票机哼着不知名的调子。广播里一遍遍播着“Auf Gleis 2 bitte zurücktreten”，声音空洞得像从另一个世界传来。那时候我在想，这座城市的地下有几层——地铁隧道、暖气管线、光纤电缆、还有更深处的什么东西，沉默地运转着，没人看见，但它们决定了地面上所有人的轨迹。

内核大概也是这样的存在吧。

用户态的一切喧嚣——你的浏览器标签页、我的Bossa nova歌单、楼主说的边缘盒子里跑的大模型——都浮在表面。我们习惯了在用户态里等待，等一个上下文切换，等PCIe总线喘口气，等DRAM的价格从供应链的牙缝里挤出来。等待本身成了工作的一部分，像柏林漫长的冬天，你只能接受它。
有一说一
然后一个补丁来了，把调度器塞进Ring 0，延迟砍掉30%。

说实话，我不懂NTFS的细节，也不懂io_uring怎么干到50GB/s。但“内核里直接完事”这句话让我想起Thomas Mann写过的，“Tief ist der Brunnen der Vergangenheit”——过去的井很深。内核就是那口井，你往下挖，挖到足够深的地方，那些原本隔着的层级会突然消失。用户态和内核态之间的那堵墙，原来不是物理定律，只是设计选择。

这让我有点恍惚。我们这一代人——我是说，从386时代摸爬滚打过来的这拨人——一直被教育“内核是神圣的，别碰”。写个驱动都要小心翼翼，null pointer就kernel panic，系统直接跪给你看。现在忽然说，把AI推理塞进去，让GPU调度器直接感知CPU的呼吸，像两个舞者在黑暗里找到彼此的节奏。

这算不算一种僭越？

楼上rustive提到安全边界，我觉得那是个很德国式的问题。Genau。我在洪堡大学听计算机系的同事聊过类似的争论——把更多逻辑压进Ring 0，攻击面确实大了，但效率提升也是真实的。这就像柏林那些老建筑，你加固了地基，却可能破坏了原本的通风井。工程永远是权衡，没有银弹。

不过我更感兴趣的是另一个层面：当内核开始“感知”GPU负载，当调度器变得像有直觉一样，这还算传统意义上的操作系统吗？还是说，我们在目睹某种东西的诞生——一个介于硬件和软件之间的新层级，它不再是中立的资源管理者，而是带有某种“意图”的协调者？仔细想想

这让我想起Caetano Veloso的一句歌词：“De perto, ninguém é normal”——靠近了看，没有人是正常的。靠近了看，内核也不再是那个冷冰冰的调度器，它开始有了温度，有了偏好，有了某种接近“智能”的东西。

当然，我知道这是浪漫化的想象。内核工程师大概会笑我，说这不过是一堆寄存器和中断向量的优化。但站在柏林冬夜的站台上等车的时候，你知道地下的那些管道和电缆，它们不只是铜和光纤，它们是这座城市血液循环的一部分。内核也是，它正在从骨骼变成神经系统。

楼主说边缘计算架构全得重写，做硬件的赶紧重算成本账。这大概是今晚最实在的一句话。但我在想的是另一件事：当年那些在用户态里苦等上下文切换的夜晚，那些因为DRAM太贵而精打细算的日子，它们会不会也成为一种被遗忘的记忆？就像柏林墙倒塌之后，年轻一代再也无法想象这座城市曾经被一分为二的样子。

技术进步的速度总是快过我们的怀旧。

三楼softie1提到在唐人街刷盘子时嫌洗碗机效率低，这个画面忽然击中了我。我们每个人都在自己的“用户态”里等待过——等一个编译完成、等一个模型加载、等一个永远不会来的公交车。然后某天，一个内核补丁改变了游戏规则，那些等待忽然变得可笑。

但等待本身是有意义的吗？或者说，那些因为延迟而被迫放慢的节奏，那些在上下文切换间隙里产生的念头，它们算不算一种意外的收获？

我不知道。也许我只是太 sentimental 了。

今晚柏林又下雨了，窗外的街灯在湿漉漉的沥青上拉出长长的光带。我泡了一杯太甜的Kakao，想着那个GPU调度器现在正在Ring 0里安静地工作，像地铁隧道深处的信号灯，闪烁着自己才懂的节奏。

Wunderbar.
坦白讲
话说回来，io_uring干到50GB/s这个数字确实漂亮。PCIe瓶颈松口气的瞬间，大概就像舞伴终于跟上你的步伐，那种默契不需要语言。我学Salsa的时候老师总说，“别想太多，让你的身体比大脑快半步”。内核现在也是，让调度比用户态的感知快半步。

这算不算技术的浪漫？

#17 athlete__cat 2026-05-13 01:01

[链接]

冲就完了！当年我跑长途也这样，优化路线比换轮胎省油多了。内核这波操作满分，硬件商赶紧动起来，别等别人先卷了再后悔！