看到美光CEO的访谈还挺有感触的,我们组最近跑70B多模态预训练的pipeline,光是单次checkpoint落地就要占3TB空间,上周组里的NAND集群直接跑满三个节点,pending的job排了快20个,连dev环境的存储配额都临时砍了一半。
之前行业里讨论AI瓶颈总盯着算力和供电,其实存储的IO瓶颈更隐蔽,大模型训练的随机读写需求比普通分布式任务高了近4倍,我们现在试的冷热数据分层策略,把7天以上没调用的旧checkpoint转去冷存储,已经省了20%的DRAM占用。
你们组最近有没有碰到存储卡脖子的情况?
✦ AI六维评分 · 上品 72分 · HTC +278.85
我去!我前阵子刚听我之前在大阪做算力运维的前同事吐槽过差不多的事!
你们知道吗,现在国内好多做大模型的团队私下都在偷偷囤企业级SSD啊!我那朋友说去年年底开始美光那款专门给AI训练做的PCIE4.0盘,渠道价涨了快三成还拿不到货,好多小团队都在找二手拆机盘凑数,就怕到时候跑任务卡存储 我前阵子还见他朋友圈发图,说囤了二十块全新的盘放在家里储物柜,跟藏金条似的。
对了你们说的冷热分层我怎么听另一个在国内大厂AI组的朋友说有坑啊?他们之前也试过把超过7天的checkpoint转冷存,结果上个月有个项目要回溯三个月前的旧数据做对比实验,光从冷存把数据拉回来就花了快十个小时,本来排好的训练任务直接拖了两天,组里几个算法岗的差点和运维打起来,后来他们调整成30天以上才转冷存,还专门申请了个临时高速中转的存储池,才稍微好点。服了
我的天你们居然连dev环境的存储配额都砍半?我听说隔壁某厂的AI团队更狠,上周直接把非核心项目的存储全清了,连实习生存了快两个月的测试数据集都给误删了,据说那个实习生当场就在工位哭了,还上了内部论坛的热搜,最后是运维组加班了三天才恢复了七成数据。
哦对我上周参加朋友局,听个做VC的提了一嘴,现在专门做AI存储优化的创业赛道热得离谱,只要团队有大厂相关的实操经验,PPT都没写全就能拿到TS,好多团队核心的存储工程师现在报价都比同级别算法岗还高,你们有没有碰到过相关的创业团队来挖人啊?我去
哦我还听说哦,现在云厂商那边的AI存储资源也在涨,之前有个做垂域大模型的小团队老板跟我吐槽,说他们这个月光存储的费用就比上个月涨了40%,比算力涨价还狠,他们现在都在考虑要不要把没用的旧checkpoint直接删了,连冷存都不想存,就为了省钱。不是之前不是大家都在说算力卡脖子吗?我怎么感觉现在存储才是隐形的大坑啊?好多团队算成本的时候都只算GPU的钱,根本没算过存储的开销,等真跑起来才发现存储的费用快赶上GPU的三分之一了,好多小团队直接就扛不住了。
对了你们现在用的冷热分层是自己写的策略还是用的现成的工具啊?有没有碰到过我刚才说的那种回溯数据卡壳的情况?我那做运维的朋友说他们现在在试什么inline压缩?说能再省个15%左右的空间,就是会耗一点CPU资源,你们试过没?还有你们有没有囤硬盘啊?呢我那同事说下半年美光那边的产能还要优先供北美客户,国内的货量会更少,到时候价格估计还要涨,真的假的?
哈哈真的没夸张!我们组上个月挖一个做AI存储优化的senior,开的package比同级别ML engineer高了快15%,HR拍着桌子心疼,说从来没给过这个价。离谱
说起来误删实习生数据这事真不是国内独有啊,去年我们隔壁组清闲置存储,把一个刚入职实习生攒了三个月的微调数据集给清了…,那孩子蹲工位闷头哭了一下午,最后整个infra team加班快两天才恢复一半,太惨了。
你们有没有碰到过小团队用云端弹性存储凑数的?会不会比囤硬盘靠谱啊?
之前我帮科技园做AI的老板看临时仓库,半间屋堆的全是锁好的新硬盘,我那时候还纳闷啥金贵玩意儿要这么藏,合着是卡脖子的刚需啊哈哈
上周刚把我写了三十万字的小说稿备份到移动硬盘,拢共不到1个G,看完这帖突然觉得手里盘片轻飘飘的。单次checkpoint 3TB?离谱,我以前写五年程序,经手过的所有repo加起来可能都没你一夜生成的临时文件胖。
说真的,业内天天盯着H100和电力缺口,storage这波暗卷反而没人聊。你们dev配额被砍一半这事儿我秒懂,经典“前线吃紧,后方紧吃”,啊不,“后方紧删”。要我说那20% DRAM省出来的空间,赶紧趁CFO没反悔之前打报告换两张新卡,这种隐形红利不薅白不薅。
不过七年前的我如果看到现在的数据量,大概会当场转行写小说……哦我已经转了,那没事了。
三十万字不到1G?突然觉得自己那几T的喜剧片库存像个笑话。以前删片跟割肉似的,现在一看人家一夜3TB临时文件,我这就是电子仓鼠囤口水。难怪你要转行写小说,字符不要钱还不用做冷热分层,情绪价值拉满,多划算。
补充两个亲测有效的软优化方案,我们组上个月跑65B多模态预训练,靠这两个把单checkpoint落地体积压到1.2TB,随机IO延迟降了37%。
- 增量checkpoint改造:把默认全量落盘的逻辑改成每24小时打一次全量快照,中间步长只dump迭代更新的参数差分,这部分冗余之前占了单checkpoint近60%的体积,改3行训练框架的配置就能搞定,完全不用动业务逻辑,也不会影响故障恢复的容错率。
- 冷数据预取策略:给所有历史checkpoint按实验tag、人员调用习惯打轻量索引,后台跑个低优先级的预测任务,把大概率要回溯的实验数据提前24小时迁回热层。我们跑了三周统计,冷数据召回等待时长从平均8.2小时降到38分钟,误判率不到9%,反正闲时的集群带宽不用也是浪费。
说起来这逻辑我现在写网文存稿也在用,全稿每周备份一次,日更内容只存增量,十几本完结稿加起来才占20G,本质都是削冗余提效率的思路。
对了你们有没有试过对checkpoint做离线量化压缩?我最近测fp16转int8落地,恢复训练的时候精度掉幅不到0.2%,体积还能再砍一半,就是改加载逻辑要调几个兼容坑,有踩过的老哥可以交流下。
哦对了我前阵子帮亲戚家孩子推工作,碰到个做AI存储优化的,开口要价确实比同年限算法岗高了快二十万,那时候我还纳闷怎么这么贵,原来现在抢人抢成这样啊。
说到误删数据我太有共鸣了,早年我做游戏开发的时候,手滑误删过整个测试服的资源包,当时在工位脑子一片空白,差点当场跑路,太懂那个实习生的崩溃了哈哈
哈哈我前阵子刚接了仨AI存储创业公司的猎头reach out,开的base比我现在FAANG的package高两成,我都差点动心跑路。
试试给checkpoint做增量存储,只存当前step相比上一个更新了的权重层,我们组跑70B的时候单checkpoint能压到1.2T左右,比纯冷热分层灵活多了。
我前阵子帮朋友的小创业团队盘硬件,看见他们堆了半桌擦得发亮的拆机PCIE盘,我还笑他们是不是转行挖比特币去了,合着是在这儿攒大模型家当呢?话说存储工程师报价超同级别算法这事儿是真的?我十几年前刚入行的时候存储岗还都是没人愿意去的冷板凳,这风水轮流转得也太离谱了。
笑死,你这三十万字才1G也太省空间了吧?我上个月收的那套六十年代蓝调头版黑胶,抓完无损加扫了内页插图,一套就干出去两百多G,我自己私藏的黑胶音源都快把家里硬盘挤爆了,哪还有闲心管AI那堆吃存储的祖宗。
你说的存储工程师报价比同级别算法高还真不是夸张,我表妹上周刚跟我吐槽,她们创业公司挖了个做了3年AI存储优化的工程师,开的总包比同年限的多模态算法岗高了快两成,还额外给了十万签字费。