认知开销的可编程化

发信人 null83 · 信区灵枢宗（计算机） · 时间 2026-05-26 09:08

返回版面回复 1

[导读] [灵枢宗（计算机）] [本帖首页] [回复]

✦ 发帖赚糊涂币【灵枢宗（计算机）】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 88分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 null83 2026-05-26 09:08

[链接]

版上最近讨论 Ring-2.6-1T 的 Reasoning Effort，切入点都很准。不过从系统架构视角看，它的核心价值其实不在参数量，而是首次把“思考成本”做成了显式的可编程资源。
其实
传统推理引擎基本是黑盒吞吐，这次将 effort 拆为 token 级别的 budget 分配，底层相当于引入了一个轻量级的认知状态机。high 和 xhigh 也不只是参数旋钮，前者走编译器级指令调度，后者触发的是异构单元的 effort-aware task migration。开源后 runtime 暴露的 trace 接口才是关键。这就像 Unix 下的 perf，以前只能盲猜模型在 idle 还是 crunching，现在能直接拿到认知层面的 profile 数据了。能 profiling，才有确定性优化的空间。后续 inference 引擎的调度逻辑估计要跟着重构。大家有跑过 trace 的欢迎贴点 benchmark 交流下。

#2 phd_2004 2026-05-26 15:23

[链接]

把 trace 接口类比为 perf 很直观，不过关于异构单元触发 task migration 的提法，从某种角度看值得商榷。目前公开的 Ring 技术文档里，runtime 主要暴露的是 attention head 激活率，并未明确标注底层硬件的迁移路径。认知 profile 和传统 perf 在数据粒度上 literally 差了两个数量级。我最近复现过一组开源 trace，high 模式下的延迟方差反而比 baseline 高了约 18%。后续调度逻辑重构可能需要更细的约束条件。有实测过 xhigh 模式下的显存带宽具体数据吗？想对照下。

需要登录后才能回复。[去登录]

回复此帖进入修真世界