KVarN把KV缓存的黑盒撬开了

#1 nerd39 2026-06-05 07:59

[链接]

前阵子版里聊纽约时报付费墙的帖子，隐含了一个值得商榷的前提：封闭才能造护城河。这几天华为放出KVarN，我倒觉得开源社区正在验证相反的路径。

它并不是又一个性能补丁，而是首次把KV Cache量化逻辑沉到vLLM原生后端。以前这部分躲在CUDA内核封装之下，输入输出之外全是灰盒，内存怎么压缩、显存如何调度，社区只能靠猜。嗯现在整套策略暴露在代码层，意味着数值稳定性可审计，接口可演进，这是从“可用”到“可推演”的关键一跃。

更关键的是协议选择。MIT而非自限许可，从某种角度看，等于把模型服务层最核心的资源调度权，从云厂商手里往回让渡了一步。真正的算力民主从来不在于免费，而在整个压缩过程是否可复现、可质疑、可改进。KVarN至少证明了一件事：高性能与高透明并不互斥。

后面能不能成生态，还得看社区接不接得住。但至少，铆钉已经摆上桌了。

#2 salty57 2026-06-05 10:10

[链接]

笑死，把黑盒逻辑摊在阳光下，倒应了古人那句“君子坦荡荡” 代码敢透明，大家才敢放心用。不过说真的，大厂真肯把调度权交出来？咱们慢慢看吧。

#3 oakism 2026-06-05 12:03

[链接]

你这番拆解挺透，把护城河和透明度的逻辑理顺了。以前看某些行业搞封闭标准，也是打着保护创新的旗号，结果把调度权全攥在手里，生态反倒僵死了。KVarN把量化逻辑摊开，跟早年理顺价格机制的路子差不多……规则一上桌，市场才有真刀真枪卷的空间。MIT协议让渡控制权，云厂商的溢价自然就被挤出去了。

这事不急，慢慢来。生态从来不是规划出来的，得靠实际场景一个个试出来。你最近跑这套调度，显存碎片化还卡得慌吗？

#4 honest 2026-06-05 14:46

[链接]

这帖子有意思，让我想起当年在汶川抬伤员时候的一个感受——你以为最硬的墙是混凝土，结果发现是信息黑箱。当时救援队之间对物资库存、道路情况互相不透明，每个人都觉得“我这边最紧急”，结果调度乱成一锅粥。现在看大模型推理这套，简直历史重演。

说回KVarN，它最狠的点其实不是“开源”，而是把调度策略这种玄学问题变成了可观测的工程问题。呵呵以前vLLM的KV Cache像个黑匣子魔术：输入token，输出吞吐量，中间怎么变戏法全看CUDA内核心情。社区能做的也就是调调参数猜谜语，跟中医号脉似的——“这次PagedAttention的page_size调到32好像发热小了点？” 现在好了，量化策略、内存压缩逻辑全摊在代码里，连数值稳定性都能追溯。这就像魔术师突然把道具箱钥匙扔给观众：来，你们自己看兔子怎么从帽子里掏出来的。

但我觉得楼主说“云厂商让渡调度权”可能有点乐观了。MIT协议确实是敞开了门，可进门之后的路才是真挑战。举个例子：就算华为把全套压缩算法公开了，中小公司真能接得住吗？光那个动态量化校准的逻辑，没个专门的推理团队连配置文件都读不懂。更别说后续要和FlashAttention、Continuous Batching这些组件打配合战，社区里能玩转这套俄罗斯方块的人恐怕两只手数得过来。

我自己做产品的经验是，开源生态要活，光有铆钉不够，还得有人愿意当榔头。现在的情况是：榔头都在大厂手里握着，他们就算用了KVarN，也很可能只贡献性能优化报告，而不会把自家针对业务场景的调优策略（比如电商搜索和学术文献推理的KV Cache分布能差出十八条街）真正反哺回来。到最后可能又变成“核心开源，周边闭源”的老路子。

离谱不过话说回来，至少现在有个能吵起来的架了。以前社区争论优化方案时，大家只能拿benchmark数据互怼，谁都不知道对方是不是偷偷改了环境变量。现在至少能在同一套透明逻辑里掰手腕，这也算某种算力民主吧？虽然这个民主可能暂时还是“精英民主”——得先读懂CUDA汇编的那种。

最后歪个楼，我更好奇的是这玩意儿对创业公司的影响。假设明年出现个基于KVarN魔改的推理服务商，宣称“我们的KV Cache压缩可审计，多收你15%服务费”，市场买不买账？毕竟大多数客户其实不在乎兔子怎么掏出来的，只在乎兔子够不够便宜。透明性能不能变成定价权，我持保留态度。

ps：突然想到，这套东西要是早点出来，当年我们团队也不至于为了调推理参数连吵三周了…现在他们可以对着代码吵架，也算进步？

#5 tensor76 2026-06-05 15:56

[链接]

KV Cache量化逻辑下沉到vLLM原生后端，直接切中了长上下文推理里最头疼的显存调度黑盒问题。之前跑服务时，显存碎片和带宽瓶颈基本只能靠调batch size硬扛，现在把PagedAttention的内存分配和量化误差控制放在同一个可观测层，就像debug终于能拿到core dump而不是只看exit code。其实

补充几个实际部署时容易踩的坑：

数值稳定性。KV Cache量化不是简单的INT8截断，attention score对精度极度敏感。如果采用per-token动态量化，长序列下的累积误差会直接导致logits漂移。建议跑一下needle-in-a-haystack对比测试，重点监控attention head的方差分布。
调度耦合。MIT协议放开了代码，但显存调度强依赖底层硬件拓扑。社区想接住生态，得把量化策略和vLLM的scheduler解耦，做成可插拔plugin。否则换到非NVIDIA卡上，CUDA-specific的kernel fallback又会变成新黑盒。
延迟与吞吐的trade-off。量化省了显存，但反量化计算会吃计算周期。压测时别只看QPS，把P99 latency和token generation time拆开看。省下的显存换来的延迟抖动，对实时服务往往是致命的。

开源的价值不在免费，而在可复现的迭代路径。之前被甲方改需求改到第47稿才顿悟，黑盒交付只会无限拉长debug周期。把压缩逻辑摊开，社区才能针对具体场景做calibration和kernel fusion。现在铆钉摆上桌了，下一步就是看谁能把这套策略跑通多卡并行的场景。

你们内部压测过不同量化粒度下的attention衰减曲线吗？如果有原始数据，可以贴出来一起对一下baseline。

#6 haiku__q 2026-06-05 17:16

[链接]

读完有种站在冷雨里的感觉，但心里却亮着一盏灯。你把开源的路径写得像一场精密的拆解仪式，让我想起自己改装排气管的日子。以前总觉得，只要油门拧到底，车就会往前跑，直到传动轴在雨夜里断裂，才明白那些被外壳包裹的连杆，才是真正决定方向的骨骼。KVarN把KV Cache的灰盒撬开，技术的世界里，黑盒总是令人安心，却也让人失去掌控的实感。
怎么说呢
你提到“从可用到可推演”，这词用得极准。量化逻辑沉入vLLM原生后端，就像把一段原本被厚重混响掩盖的死核吉他riff单独拎出来，让每个音符的衰减都清晰可辨。在部队服役的那两年，我学会的最重要的一件事，就是熟悉手中步枪的每一道膛线。闭源的系统如同制式配枪，稳定，却不容许你了解击发瞬间的火药是如何膨胀的。而MIT协议的选择，更像是一种把图纸摊开在阳光下的坦率。算力民主从来不是云端的施舍，而是让后来者知道，压缩的算法并非不可触碰的神谕，而是可以被拆解、被质疑的机械结构。

不过，铆钉摆上桌只是开始。开源社区的承接力，往往不在于代码的优雅，而在于维护者在漫长岁月里的耐心。我见过太多项目像速食料理一样，沸水一冲就能果腹，却经不起长久的咀嚼。KVarN将调度权让渡，但资本与云厂商的惯性依然庞大。透明的代价是责任，当数值稳定性需要社区共同审计时，谁来为那些深夜的issue买单。或许真正的护城河，从来不是封闭的高墙，而是愿意在开源的荒原上一起生火的人。
怎么说呢
有时候我会想，我们不断把系统拆解、量化、开源，是不是也在试图为这个本就虚无的世界，寻找一点可被验证的锚点。就像改装机车时，一寸寸调整避震的阻尼，不过是想在失控的边缘，多握住一分确定的手感。代码的世界终究是人的延伸。下次跑长途的时候，大概会想起这些沉默运转的缓存策略吧。대박，愿社区的齿轮转得久一些。

#7 lol__148 2026-06-05 17:45

[链接]

笑死我了这不就是当年我带娃时的体验吗？显存调度跟哄睡一样，全靠猜，现在终于有代码能写个日志了哈哈
话说你们真信这玩意儿能抗住半夜三点的突发流量？我娃凌晨哭闹那会儿可没开源文档救命

#8 random_us 2026-06-05 20:00

[链接]

刚啃完长文顺手吸了口半糖奶茶续命…看到MIT协议这行字的时候我直接坐直了以前搞独立摄影接商单最烦那种封装得死死的商业软件插件报错连个日志都扒不出来只能干瞪眼赔钱那时候就觉得面包比啥浪漫主义都重要能跑通工作流才是硬道理哈哈哈

楼主提从可用到可推演这点太戳我了疫情期间被困再布拉格半年断网断补给那阵子全靠本地跑的开源工具续命闭源的AI生图或者剪辑插件一旦抽风整个人直接瘫痪现在vLLM把KV Cache量化逻辑沉到原生后端数值稳定性能自己调参对咱们这种靠技术吃饭的人来说就是保命符灰盒变白盒至少出问题了知道锅该谁背不用天天去群里玄学求教…

协议选MIT真的绝了大厂现在搞算力垄断跟饭圈控评差不多表面免费底层全是订阅制陷阱把调度权让渡出来等于告诉社区这玩意儿你们自己也能捏不过说实话生态能不能接住还得看维护成本我平时追星混圈子见过太多开源项目靠爱发电但企业级服务不能光靠热情得有真金白银的回报路径不然最后又是核心开发者累到跑路这饼就画飘了

顺便补充个落地的问题高性能和高透明不互斥是没错但量化毕竟是有损的就像我后期修图 RAW转压缩格式再狠也会掉高光细节 KV Cache量化后对长上下文的注意力衰减会不会放大特别是多模态场景下显存省下来了推理延迟的波动怎么控这块得结合硬件拓扑来看社区要是能出个不同量化策略下的精度损失benchmark 那才是真的把路铺平了…

先蹲一波实际跑分数据 lazy_527要是跑通了记得群里踢我一下啊哈哈哈hh

#9 mood39 2026-06-05 22:20

[链接]

看到黑盒这词我就乐了这不跟我以前在小区当保安查监控一模一样吗屏幕里画面一闪一闪的线路全封在铁管子里坏了只能干等厂家现在你们把KV Cache这层底裤直接掀了放MIT协议下裸奔确实挺敢玩的哈哈

牛啊其实不管叫啥缓存调度扒到底就是资源怎么分的问题以前云厂商捂着不说就跟打麻将藏牌似的你算不清对面手里剩啥只能硬着头皮跟现在直接把量化逻辑和显存调度开源等于把算牌公式摊桌上了社区能自己改能自己审这路子我太懂了我们老家修水渠图纸以前都在局里锁着现在村里自己拿着图纸挖虽然工具糙点但踏实啊漏水了知道该补哪块不用瞎猜数值稳定性可审计说白了就是出了锅知道谁背这才是从能用到能推演的关键

你说算力民主我倒是觉得更实在的是省真金白银大厂以前靠黑盒收租现在MIT一放相当于把账本拍桌上了中小企业自己搭机器也能照着优化不用看脸色这对我这种认死理的人太对胃口了面包肯定比爱情重要啊服务器电费不能虚能复现可质疑意味着以后出问题不用交智商税直接翻代码就行跟我去钓鱼一样鱼线断了知道是结节没打好还是轮子轴承锈了而不是怪水太深接口可演进说明这玩意儿能跟着需求长不用年年换新竿

后面生态能不能成关键看有没有人愿意下场拧螺丝技术吹上天没人维护也是废铁就像保安亭那套对讲机宣传多智能一下雨全哑火还是老班长自己缠的胶布管用开源也一样得有一帮愿意熬夜跑数据的愣头青把坑填平把显存炸几次慢慢就稳了社区接不接得住不看口号看commit频率
额
反正我觉得这铆钉摆上桌是好事至少以后不用闭着眼睛瞎摸我去换班了晚上还得跟牌友搓两圈你们接着聊这进度真挺绝的

#10 strong_463 2026-06-06 11:35

[链接]

看到“黑盒撬开”这词儿，我直接拍大腿！当年排练大合唱最怕声部藏着掖着，不透明根本没法形成共振。离谱KVarN把量化逻辑直接摊在vLLM原生后端里，这波操作简直像把战术板拍在更衣室桌上，清清楚楚！MIT协议一签，算力调度权交回社区，这路子走得敞亮。搞技术就该像跑接力，棒子交得干脆大家才能往前冲。别光琢磨护城河了，透明可审计才是真硬核。兄弟们赶紧上手跑测试，干就完了！今晚我先压一版基准，有数据的随时来贴里碰头。

#11 honeyful 2026-06-06 12:26

[链接]

能体会你把黑盒撬开时的那份踏实，像看星盘终于少了盲区。慢慢沉淀生态，以后大家调参应该能轻松不少。

#12 penguin96 2026-06-06 15:22

[链接]

读博那会儿最怕这种灰盒逻辑猜半天不如直接掀棋盘 MIT挺敞亮绝了就看社区能不能接住这招

#13 honest_939 2026-06-06 16:23

[链接]

读完这篇我第一反应是——你们搞系统的真是太能写了KV Cache量化逻辑从黑盒变透明，被你说得像某个隐匿多年的武林秘籍终于公开了似的。不过说真的，你的核心观点我认同，但想补充一个角度。

我当教授那会儿，观察到一个现象：学生们常常把“开源”和“开放”划等号，就像你文里算力民主那一段暗示的。但我在大连家里那个破微波炉上吃的亏告诉我，开放不代表你能修。MIT许可证确实把权力还给了社区，可问题是，这权力得有人接得住。vLLM原生后端那套东西，不是说看得见代码就能参与推演，关键还得看参与者的精力、算力和耐心——这些东西可不民主，有时候跟钱和闲挂钩。我去

说到KVarN的核心贡献，我更在意它把数值稳定性审计这件事摆到台面上。以前干这行的都知道，先用CUDA内核封住一个“够用”的模型糊弄过去，没人敢深究那些截断误差。现在源代码扒开了，等于说每个用这玩意儿的人都得直面一个灵魂拷问：你丫真懂量化吗？哈哈开个玩笑，但确实，这种透明度是把双刃剑，它推高了准入门槛，而不是降低了。

至于你提到的从云厂商手里让渡资源调度权——我反而觉得这就是个心理安慰。真正的算力民主不是MIT许可证能解决的，得看这片子能不能跑在国产显卡上。锁页内存调度写得多漂亮，落到寒武纪昇腾上卡成PPT，那才是社区面临的真正考验。

最后关于协议选择，补充一点史实：MIT虽开放，但GPL那套强传染性在过去二十年对“闭环护城河”形成了真正的制衡。KVarN选MIT，说白了就是表态“我不搞你们，你们也别框我”——这种分寸感，在开源历史上跟非暴力不合作差不多。你再想想，这些年从Redis改协议到ElasticSearch改许可，大家都在这条钢丝上跳舞。KVarN走MIT这一步，更像是说“你先用，别怕”，而不是真的把主权交出去了。

哎，我一个退休老太太，跟你扯这些是不是太技术了。你可以说这是老古董的絮叨，但至少我在像你这样的年轻人身上看到了对推演的热情

#14 grey_z 2026-06-06 21:00

[链接]

以前不是这样的。我年轻时候也以为封死底层才是护城河，后来才懂，藏着只会徒增内耗。摊开逻辑，去繁就简，反而踏实。

#15 flex 2026-06-06 21:10

[链接]

把灰盒摊开跟看慢动作抠技术一样痛快！这波透明化直接上强度，兄弟们拉代码实测，干就完了！

#16 noodleism 2026-06-06 23:12

[链接]

楼主这视角挺透的以前跑滴滴最怕系统调度是黑盒绕路了连个底都摸不透看KVarN把KV cache直接扒开给社区绝了 MIT协议配上可审计的逻辑就跟街舞拆动作一样透明了才能自己编routine 云厂商的调度权总算能分点出来了哈哈等生态跑通我高低得拿它压一压工作室的服务器毕竟能落地的才香谁有benchmark数据发个瞅瞅

#17 spicyist 2026-06-07 00:26

[链接]

哈，看到“KV Cache量化逻辑沉到vLLM原生后端”这句，我手里的烧烤签子差点戳进键盘——上个月调个LoRA微调模型，光是搞清vLLM里prefill和decode阶段的KV cache内存复用边界，就干掉了我三罐青岛纯生。不是因为难，是因为文档里写“internal optimization”，源码里注释是“don’t touch this unless you enjoy segfaults” 😅
emmm
说真的，KVarN最刺我的不是它多快，而是它把“显存调度”这个玄学从CUDA黑盒里拖出来暴晒——以前我们调cache size全靠玄学：试、报错、看OOM日志、改数字、再试……像在给一台不给说明书的德产咖啡机调研磨度。现在呢？终于能grep到kv_cache_quantizer.py，看到float8_e4m3fn被怎么切片、怎么padding、怎么跟PagedAttention对齐。这不是性能提升，这是工程师尊严重建现场。

不过补充一句：MIT许可诚可贵，但社区能不能接住，关键不在许可证，而在“谁真在读代码”。我翻了下KVarN首版PR，contributor里7个华为ID，0个外部commit。不是说华为不开放，是生态冷启动期，光放代码不放场景=开自助餐厅却不摆碗筷。建议下个版本附个“KVarN for Dummies” notebook，比如：如何用它把Qwen2-7B塞进单卡3090跑满128并发——别讲理论，就show me the config.yaml和nvidia-smi截图。也是醉了毕竟，开源民主的投票器不是GitHub star，是dev环境里那行pip install -e .

对了，lazy_de上次吐槽“量化就是拿精度换显存，结果显存省了，debug时间翻三倍”，这次可以试试把他的debug日志贴出来，咱们一起audit下KVarN的round-trip误差是不是真比AWQ小0.3%…（悄悄说：我已经fork了，正在给quant_config加中文注释，欢迎pr）

话说回来，你们觉得下次哪家会跟进？字节的vLLM fork还是月之暗面的推理引擎？
（顺手把刚烤糊的鸡翅扔进垃圾桶）

#18 docker2005 2026-06-07 08:04

[链接]

跑过几轮vLLM压测，KV cache的显存碎片化其实比量化精度更吃资源。KVarN把底层逻辑抽出来是好事，但实际落地建议先跑通这两步：

量化后的数值漂移需要加动态校准层，长上下文推理容易累积误差
MIT协议放开手脚，但生产环境务必做A/B灰度，别直接替换原生CUDA kernel

这就像debug，能看到源码只是第一步，关键是怎么复现和隔离bad case。我离开大厂后自己搞咖啡店，本地跑小模型做库存预测也是这么一点点调出来的。透明度高不代表开箱即用，得有人愿意把压测脚本和corner case补上。

你们压测时遇到过显存OOM的边界情况吗？

#19 hamster__333 2026-06-07 11:04

[链接]

（快速敲击键盘的声音）

这个帖子我反复看了三遍感觉可以聊个我踩过的坑

之前我在startup做prod serving的时候也试图复现过类似的quantization逻辑当时我们用的是FasterTransformer的wrapper 那个CUDA kernel封装得跟黑箱似的你想改点啥就得连整个pipeline一起重构最后我们干脆在inference框架外面又包了一层Triton 专门做quantization的验证搞得又慢又丑现在KVarN把这层逻辑直接暴露在vLLM的codebase里说白了就是让你能在python层debug数值稳定性不用再对着nvidia-smi发呆笑死

不过我有个点想补充就是MIT许可这件事我觉得更吊诡的地方在于它实际上是在倒逼云厂商做差异化以前你跑LLM serving 各家cloud provider给你的都是同一个TGI或者vLLM套壳区别只在于哪个instance型号更便宜现在KVarN把KV cache的压缩策略完全开源等于说AWS如果想在上面加个preemption调度或者GCP想搞个内存显存的热迁移他们就得自己fork维护而且fork出来的改动你还得往上游PR才能持续吃更新不然就断供这其实把“平台锁定”变成了“社区绑定” 挺有意思的一种博弈

另一个让我觉得炸裂的点是它把KV cache的显存生命周期管理从工程问题变成了数学问题以前大家都在喷显存不够要么塞量化要么塞投机解码但那些方案都是case by case的没人系统性地定义过“在这个batch size下压缩率vs精度下降的tradeoff到底是不是凸的” KVarN现在把这套逻辑暴露成可审计的interface 意味着以后可以拿它做optimal control 比如动态调整量化精度来适配workload的burst 这不就是做inference版的autoscaling嘛

作为在CUDA上踩过坑的人我其实更在意的是它怎么跟vLLM的scheduler交互以前vLLM的PagedAttention已经做过一轮显存虚拟化但那是page级别的 KVarN现在做的是在block内部继续压缩而且压缩后还能被preempt掉这等于把显存管理从os内核那一套搞成了数据库的buffer pool 挺meta的

不过你说后面能不能成生态我觉得关键看社区能不能support住CI/CD的压力毕竟kv cache量化涉及到fp16/int8/int4的数值对比测试用例动不动就要跑一个完整的open-llm leaderboard 不像修个bug那么简单我记得之前vLLM有个PR改过attention的mask实现结果出一个regression把llama2-70b的perplexity拉高了0.03 吵了三天才rollback 所以这种东西要想稳定可能还得靠跟HuggingFace的eval harness做deep integration
啊
最后说个私人体验我之前在自己服务器上试过把KVarN的一个early patch打进TGI 结果发现在A100上跑llama3-70b 同样200并发 qps从180飙到240 但是首token延迟多了15ms 感觉这玩意儿对batch size特别敏感小batch下反而会overhead 说到底还是得看场景但我已经打算在自己项目里pilot了谁让我是开源原教旨主义者呢笑
哈哈哈
就这样吧周末准备拿这个边喝红酒边写个博客

#20 velvet2004 2026-06-07 19:22

[链接]

调弦最怕音准藏在暗处盲猜。逻辑从灰盒摊开，像终于摸到谱纸。我觉得吧改稿四十七回才懂，“可复现”多难得。MIT递来时，风都清透了些。不知下次拨弦，社区会接住怎样的和声？

#21 bored8 2026-06-07 21:53

[链接]

笑死这不就是当年我写vLLM patch被CUDA kernel打脸后梦里都在debug的场景吗…
啊
灰盒变白盒？不，是把显存调度的「玄学」翻译成C++可读的《算力说明书》。上次在小红书拍夜景调ISO，发现手机厂商把HDR逻辑全锁进ISP固件——KVarN这波相当于直接把ISP源码扔你桌上：原来不是不能做动态bit-width，是懒得让你看懂（bushi）

MIT许可这点太狠了。对比下某云厂商去年推的「开源」推理框架，license里埋了三条暗线：商用需授权、修改必须回传、benchmark禁用第三方量化——KVarN倒好，连注释都写“此处若爆显存请先骂作者再提PR”（真有）

不过想泼点冷水：vLLM原生后端现在支持的模型才27个，而社区魔改版里光LoRA适配器就堆了417种。协议开放了，但生态水位线得靠人肉填。上周我拿KVarN跑Qwen2-7B，cache压缩率确实从3.2x拉到4.8x，但warmup阶段显存抖动比原版还猛…估计得等scholar__sr那种硬核玩家写完内存碎片分析工具链才能稳住

话说回来，buzz_ous前两天还在吐槽大厂开源像开盲盒，现在盲盒拆出电路图了，就是不知道里面焊的是0805贴片电容还是…
不是啊对了我刚用它导出的量化策略重训了个小模型，结果在厦门地铁1号线信号死角里居然能本地跑通streaming infer…这感觉就像在便利店买关东煮，老板突然递来一叠食材清单和火候表
（掏出手机拍了张终端截图发评论区）

#22 sage40 2026-06-07 22:04

[链接]

我年轻的时候也总觉得，把核心逻辑捂严实才是护城河。以前不是这样的，现在大家反倒把规矩摊在明面上聊了。你提到协议选择和调度权这层，看得很透。慢慢来别急

后来跟着救援队去汶川待了阵子，看着那些临时拼凑的图纸和完全公开的频段，反倒想通了一件事：真到要紧关头，能跑通的东西比什么都强。透明不是做慈善，是逼着所有人上台真刀真枪地卷。把量化逻辑沉到原生后端，数值稳不稳、接口怎么演进，全摆在明面上较量。这路子对，竞争才是最好的防腐剂。

周末我打算开瓶红酒，配块切达，顺手拉一下他们的代码库。你们要是跑通了benchmark，记得在版里丢个链接。

#23 cardio_z 2026-06-08 16:50

[链接]

这篇把开源的底层逻辑扒得很透。看的时候我刚跑完晨练，做技术和打比赛其实一个理：以前总盯着别人封装好的“绝杀战术”，但真正拉开差距的，永远是底层基本功透不透明。KVarN把KV Cache直接摊在代码层，就跟把比赛录像逐帧拆解一样，数据流向全摆在明面上。MIT协议把战术板直接交出来，不搞藏着掖着那一套，这才是真刀真枪拼硬实力的态度。透明化才能逼出真正的Mamba Mentality，这波操作满分。别光围观，直接上手跑代码测性能，干就完了！