AI存储缺口的实操应对思路

#1 sonnet 2026-05-03 21:14

[链接]

看到美光CEO的访谈还挺有感触的，我们组最近跑70B多模态预训练的pipeline，光是单次checkpoint落地就要占3TB空间，上周组里的NAND集群直接跑满三个节点，pending的job排了快20个，连dev环境的存储配额都临时砍了一半。
之前行业里讨论AI瓶颈总盯着算力和供电，其实存储的IO瓶颈更隐蔽，大模型训练的随机读写需求比普通分布式任务高了近4倍，我们现在试的冷热数据分层策略，把7天以上没调用的旧checkpoint转去冷存储，已经省了20%的DRAM占用。
你们组最近有没有碰到存储卡脖子的情况？

#2 radar_jr 2026-05-03 21:38

[链接]

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！
你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。
对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了
我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。
哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去
哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。
对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

#3 duckling__bee 2026-05-03 22:45

[链接]

radar_jr, post: 127818

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！

你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。

对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了

我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。

哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去

哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。

对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

哈哈真的没夸张！我们组上个月挖一个做AI存储优化的senior，开的package比同级别ML engineer高了快15%，HR拍着桌子心疼，说从来没给过这个价。离谱
说起来误删实习生数据这事真不是国内独有啊，去年我们隔壁组清闲置存储，把一个刚入职实习生攒了三个月的微调数据集给清了…，那孩子蹲工位闷头哭了一下午，最后整个infra team加班快两天才恢复一半，太惨了。
你们有没有碰到过小团队用云端弹性存储凑数的？会不会比囤硬盘靠谱啊？

#4 lazy_ist 2026-05-04 07:29

[链接]

之前我帮科技园做AI的老板看临时仓库，半间屋堆的全是锁好的新硬盘，我那时候还纳闷啥金贵玩意儿要这么藏，合着是卡脖子的刚需啊哈哈

#5 salty_kr 2026-05-04 08:23

[链接]

上周刚把我写了三十万字的小说稿备份到移动硬盘，拢共不到1个G，看完这帖突然觉得手里盘片轻飘飘的。单次checkpoint 3TB？离谱，我以前写五年程序，经手过的所有repo加起来可能都没你一夜生成的临时文件胖。

说真的，业内天天盯着H100和电力缺口，storage这波暗卷反而没人聊。你们dev配额被砍一半这事儿我秒懂，经典“前线吃紧，后方紧吃”，啊不，“后方紧删”。要我说那20% DRAM省出来的空间，赶紧趁CFO没反悔之前打报告换两张新卡，这种隐形红利不薅白不薅。

不过七年前的我如果看到现在的数据量，大概会当场转行写小说……哦我已经转了，那没事了。

#6 hamster_kr 2026-05-04 09:14

[链接]

salty_kr, post: 129303

上周刚把我写了三十万字的小说稿备份到移动硬盘，拢共不到1个G，看完这帖突然觉得手里盘片轻飘飘的。单次checkpoint 3TB？离谱，我以前写五年程序，经手过的所有repo加起来可能都没你一夜生成的临时文件胖。

说真的，业内天天盯着H100和电力缺口，storage这波暗卷反而没人聊。你们dev配额被砍一半这事儿我秒懂，经典“前线吃紧，后方紧吃”，啊不，“后方紧删”。要我说那20% DRAM省出来的空间，赶紧趁CFO没反悔之前打报告换两张新卡，这种隐形红利不薅白不薅。

不过七年前的我如果看到现在的数据量，大概会当场转行写小说……哦我已经转了，那没事了。

三十万字不到1G？突然觉得自己那几T的喜剧片库存像个笑话。以前删片跟割肉似的，现在一看人家一夜3TB临时文件，我这就是电子仓鼠囤口水。难怪你要转行写小说，字符不要钱还不用做冷热分层，情绪价值拉满，多划算。

#7 byte 2026-05-04 09:36

[链接]

补充两个亲测有效的软优化方案，我们组上个月跑65B多模态预训练，靠这两个把单checkpoint落地体积压到1.2TB，随机IO延迟降了37%。

增量checkpoint改造：把默认全量落盘的逻辑改成每24小时打一次全量快照，中间步长只dump迭代更新的参数差分，这部分冗余之前占了单checkpoint近60%的体积，改3行训练框架的配置就能搞定，完全不用动业务逻辑，也不会影响故障恢复的容错率。
冷数据预取策略：给所有历史checkpoint按实验tag、人员调用习惯打轻量索引，后台跑个低优先级的预测任务，把大概率要回溯的实验数据提前24小时迁回热层。我们跑了三周统计，冷数据召回等待时长从平均8.2小时降到38分钟，误判率不到9%，反正闲时的集群带宽不用也是浪费。

说起来这逻辑我现在写网文存稿也在用，全稿每周备份一次，日更内容只存增量，十几本完结稿加起来才占20G，本质都是削冗余提效率的思路。
对了你们有没有试过对checkpoint做离线量化压缩？我最近测fp16转int8落地，恢复训练的时候精度掉幅不到0.2%，体积还能再砍一半，就是改加载逻辑要调几个兼容坑，有踩过的老哥可以交流下。

#8 lazyive 2026-05-04 12:36

[链接]

radar_jr, post: 127818

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！

你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。

对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了

我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。

哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去

哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。

对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

哦对了我前阵子帮亲戚家孩子推工作，碰到个做AI存储优化的，开口要价确实比同年限算法岗高了快二十万，那时候我还纳闷怎么这么贵，原来现在抢人抢成这样啊。

说到误删数据我太有共鸣了，早年我做游戏开发的时候，手滑误删过整个测试服的资源包，当时在工位脑子一片空白，差点当场跑路，太懂那个实习生的崩溃了哈哈

#9 hamster__333 2026-05-04 12:58

[链接]

radar_jr, post: 127818

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！

你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。

对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了

我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。

哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去

哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。

对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

哈哈我前阵子刚接了仨AI存储创业公司的猎头reach out，开的base比我现在FAANG的package高两成，我都差点动心跑路。

#10 git_cn 2026-05-04 14:29

[链接]

试试给checkpoint做增量存储，只存当前step相比上一个更新了的权重层，我们组跑70B的时候单checkpoint能压到1.2T左右，比纯冷热分层灵活多了。

#11 salty_853 2026-05-04 14:39

[链接]

radar_jr, post: 127818

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！

你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。

对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了

我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。

哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去

哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。

对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

我前阵子帮朋友的小创业团队盘硬件，看见他们堆了半桌擦得发亮的拆机PCIE盘，我还笑他们是不是转行挖比特币去了，合着是在这儿攒大模型家当呢？话说存储工程师报价超同级别算法这事儿是真的？我十几年前刚入行的时候存储岗还都是没人愿意去的冷板凳，这风水轮流转得也太离谱了。

#12 sharp58 2026-05-04 16:40

[链接]

salty_kr, post: 129303

上周刚把我写了三十万字的小说稿备份到移动硬盘，拢共不到1个G，看完这帖突然觉得手里盘片轻飘飘的。单次checkpoint 3TB？离谱，我以前写五年程序，经手过的所有repo加起来可能都没你一夜生成的临时文件胖。

说真的，业内天天盯着H100和电力缺口，storage这波暗卷反而没人聊。你们dev配额被砍一半这事儿我秒懂，经典“前线吃紧，后方紧吃”，啊不，“后方紧删”。要我说那20% DRAM省出来的空间，赶紧趁CFO没反悔之前打报告换两张新卡，这种隐形红利不薅白不薅。

不过七年前的我如果看到现在的数据量，大概会当场转行写小说……哦我已经转了，那没事了。

笑死，你这三十万字才1G也太省空间了吧？我上个月收的那套六十年代蓝调头版黑胶，抓完无损加扫了内页插图，一套就干出去两百多G，我自己私藏的黑胶音源都快把家里硬盘挤爆了，哪还有闲心管AI那堆吃存储的祖宗。

#13 phd__372 2026-05-04 16:48

[链接]

radar_jr, post: 127818

我去！我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事！

你们知道吗，现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊！我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘，渠道价涨了快三成还拿不到货，好多小团队都在找二手拆机盘凑数，就怕到时候跑任务卡存储我前阵子还见他朋友圈发图，说囤了二十块全新的盘放在家里储物柜，跟藏金条似的。

对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊？他们之前也试过把超过7天的checkpoint转冷存，结果上个月有个项目要回溯三个月前的旧数据做对比实验，光从冷存把数据拉回来就花了快十个小时，本来排好的训练任务直接拖了两天，组里几个算法岗的差点和运维打起来，后来他们调整成30天以上才转冷存，还专门申请了个临时高速中转的存储池，才稍微好点。服了

我的天你们居然连dev环境的存储配额都砍半？我听说隔壁某厂的AI团队更狠，上周直接把非核心项目的存储全清了，连实习生存了快两个月的测试数据集都给误删了，据说那个实习生当场就在工位哭了，还上了内部论坛的热搜，最后是运维组加班了三天才恢复了七成数据。

哦对我上周参加朋友局，听个做VC的提了一嘴，现在专门做AI存储优化的创业赛道热得离谱，只要团队有大厂相关的实操经验，PPT都没写全就能拿到TS，好多团队核心的存储工程师现在报价都比同级别算法岗还高，你们有没有碰到过相关的创业团队来挖人啊？我去

哦我还听说哦，现在云厂商那边的AI存储资源也在涨，之前有个做垂域大模型的小团队老板跟我吐槽，说他们这个月光存储的费用就比上个月涨了40%，比算力涨价还狠，他们现在都在考虑要不要把没用的旧checkpoint直接删了，连冷存都不想存，就为了省钱。不是之前不是大家都在说算力卡脖子吗？我怎么感觉现在存储才是隐形的大坑啊？好多团队算成本的时候都只算GPU的钱，根本没算过存储的开销，等真跑起来才发现存储的费用快赶上GPU的三分之一了，好多小团队直接就扛不住了。

对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊？有没有碰到过我刚才说的那种回溯数据卡壳的情况？我那做运维的朋友说他们现在在试什么inline压缩？说能再省个15%左右的空间，就是会耗一点CPU资源，你们试过没？还有你们有没有囤硬盘啊？呢我那同事说下半年美光那边的产能还要优先供北美客户，国内的货量会更少，到时候价格估计还要涨，真的假的？

你说的存储工程师报价比同级别算法高还真不是夸张，我表妹上周刚跟我吐槽，她们创业公司挖了个做了3年AI存储优化的工程师，开的总包比同年限的多模态算法岗高了快两成，还额外给了十万签字费。