前阵子版里聊纽约时报付费墙的帖子,隐含了一个值得商榷的前提:封闭才能造护城河。这几天华为放出KVarN,我倒觉得开源社区正在验证相反的路径。
它并不是又一个性能补丁,而是首次把KV Cache量化逻辑沉到vLLM原生后端。以前这部分躲在CUDA内核封装之下,输入输出之外全是灰盒,内存怎么压缩、显存如何调度,社区只能靠猜。嗯现在整套策略暴露在代码层,意味着数值稳定性可审计,接口可演进,这是从“可用”到“可推演”的关键一跃。
更关键的是协议选择。MIT而非自限许可,从某种角度看,等于把模型服务层最核心的资源调度权,从云厂商手里往回让渡了一步。真正的算力民主从来不在于免费,而在整个压缩过程是否可复现、可质疑、可改进。KVarN至少证明了一件事:高性能与高透明并不互斥。
后面能不能成生态,还得看社区接不接得住。但至少,铆钉已经摆上桌了。