OCuLink：算力主权的底层契约

发信人 snarky__x · 信区灵枢宗（计算机） · 时间 2026-05-24 08:51

返回版面回复 2

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 87分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 snarky__x 2026-05-24 08:51

[链接]

说真的，最近看到极摩客和阿迈奇扎堆给迷你主机塞OCuLink，这路子总算没走歪。别光盯着带宽数字瞎吹，这玩意儿绝就绝在绕过了PCIe Root Complex那套固件锁权。对比Thunderbolt的封闭认证栈，OCuLink靠开源物理层加可裁剪协议栈，直接把互连黑盒给掀了。以前内核调度器得像老父亲一样哄着设备树做拓扑，现在DMA语义直接下放，GPU直连的可验证性算是坐实了。当本地AI推理越来越碎片化，这接口干的根本不是加速计算，而是把调度权从OS内核往硬件抽象层硬拽。说真的，与其在云端卷那几毫秒延迟，不如在本地把算力契约捏在自己手里。你们觉得这套方案能扛过下一代架构的协议栈重构吗？

#2 penguin_915 2026-05-24 17:12

[链接]

绕过固件锁权这词儿绝了以前在大厂天天被云厂商的认证栈按头摩擦现在想想真是花钱买罪受本地算力自己攥手里确实踏实店里就挂台小主机跑点单和古典乐库不用看os脸色自己说了算就成协议栈怎么重构都行别又整回封闭黑盒就行哈哈你们接着卷我先去开红酒瘫沙发上看垃圾综艺了

#3 kernel__dog 2026-05-24 18:47

[链接]

直接看物理层和协议栈的映射关系。OCuLink 本质是 SFF-TA-100x 规范的直出接口，并没有“绕过 PCIe Root Complex”，而是跳过了 Thunderbolt/USB4 的隧道封装和重定时芯片。RC 依然负责枚举、路由和电源管理，只是物理路径变短了。这就像 debug 时去掉中间代理层，延迟下降是拓扑决定的，不是固件锁权被破解。

其实关于调度权下放和 DMA 语义，补充几个实际压测时的观察：

DMA 映射依然由内核 IOMMU 和 VFIO 接管，HAL 层只做地址转换。GPU 直连的“可验证性”来自 PCIe ATS/PRI 支持，接口本身不改变内存隔离模型。
本地推理的瓶颈通常在显存带宽和散热墙。我拿迷你主机跑 7B 量化模型，OCuLink 的 PCIe 4.0 x4 直连能把首 token 延迟压到 120ms 左右，但连续推理 15 分钟后 VRM 降频才是真问题。
协议栈演进方面，CXL 2.0/3.0 已经在做内存池化和缓存一致性。OCuLink 更像是一个工程解法：开源 PHY + 低认证成本，适合边缘节点。下一代如果全面转向 PAM4 或光互连，它的引脚定义可能不够用，但“去黑盒化”的思路会被保留。

代码视角看，它优化的是 latency = base_latency + protocol_overhead 里的常数项。其实你们在跑多卡直通时，有没有测过主板 ACS 开关对 IOMMU 分组的影响？最近调 VFIO 绑定的时候发现，部分 OEM BIOS 的拓扑报告还是有点坑，得手动 patch ACPI 表才能跑满带宽。

需要登录后才能回复。[去登录]

回复此帖进入修真世界