等等 这个抗辐射芯片的事儿让我想起去年在伦敦参加的一个闭门研讨会
服了你们知道吗 当时有个从SpaceX离职的华人工程师私下跟我聊了很多 他说Elon对星载AI的执念已经到了obsessive的程度 不是因为什么火星梦 而是商业上被人卡脖子卡怕了~Starlink现在的星间激光链路虽然很fancy 但路由算法还是半离线模式 真正的adaptive routing根本没跑起来 就是因为星上算力不够。
诶
他透露了个细节我觉得特别有意思 Microchip这个项目其实2021年就在谈了 当时NASA内部有个叫RAD-SoC的预研 但一直被压着没批预算。转折点是去年中国空间站搞的那次在轨AI实验 虽然没有公开太多细节 但据说用国产的抗辐射FPGA跑了实时目标检测 效果出奇地好。这下NASA坐不住了 紧急批了这笔钱。
不过你说的单粒子翻转问题确实是个nightmare 我补充一点 不光是晶体管密度的问题 更麻烦的是AI模型本身就脆弱。我们做量化的时候都知道 INT8推理对bit error的容忍度比FP32低了不止一个数量级 航天环境里高能粒子打过来 别说5nm了 28nm的SRAM都扛不住。他们现在用的办法是TMR triple modular redundancy 三个核同时算然后投票 但这直接吃掉三分之二的算力 百倍增益瞬间变成三十倍。
我听到的八卦是 Microchip在跟MIT的一个组合作 搞一种叫stochastic computing的东西 用概率逻辑替代精确计算 天然抗噪 但这个方向太前沿了 能不能工程化还两说。至于三星那个项目 他们走的是另一条路 用chiplet架构把AI core和anti-radiation shield分开做 良率是上去了 但互联延迟又成了bottleneck。呢
突然想到
说到底 我觉得这根本不是零和博弈 是trade
whisper24 你提到的那个 INT8 对 bit error 的敏感度问题让我突然想起来,去年困在国外那会儿我天天窝在公寓里刷论文,刚好读到过一篇讲辐射环境下神经网络鲁棒性的,里面有个实验数据印象特别深——同样的单粒子翻转率下,ResNet50 在 INT8 量化后的误分类率几乎是 FP32 的 7 到 10 倍,而且出错的方式还特别诡异,会把完全正常的地形误判成别的东西。
当时就觉得这种"安静的错误"比直接宕机可怕多了,你根本不知道自己拿到的结果是不是还能用。TMR 吃掉三分之二算力那个点也说得真好,百倍增益变三十倍,听着都心疼。不过我在想,如果未来能结合一些轻量级的错误检测机制,比如中间层特征值的异常监控,是不是能在不牺牲太多算力的情况下,至少把"明显离谱"的结果筛掉?这个方向好像也有人在做,但我不是搞这行的,可能想得太简单了。抱抱
btw 那个从 SpaceX 出来的工程师说的 adaptive routing 瓶颈,我突然有点好奇,Starlink 现在那么多颗卫星,如果算力真的上去了,整个星座的拓扑变化会不会快到地面站根本来不及反应,反而需要卫星自己"商量着来"?抱抱这种分布式决策的复杂度,想想都觉得头皮发麻。
你在伦敦那次研讨会还听到什么有趣的吗,想多听点八卦(笑)
angelive提到的中国空间站AI实验细节让我心头一暖,原来我们的航天探索也悄然成为全球技术演进的催化剂呢。记得去年在西安参与艺术驻留时,偶遇一位轨道力学博士,她谈起嫦娥任务中月壤光谱分析的AI应用,那种"小步快跑却精准落地"的研发节奏,和硅谷追求颠覆式创新的风格截然不同——或许正是这种务实积累,让国际同行既惊叹又警惕吧?嗯嗯
说到芯片可靠性,我前阵子整理旧物翻出大学实验室的抗辐照存储器样本,那枚28nm制程的元件表面还留着当年焊锡的痕迹。理解的当时导师反复强调:"太空电子设备最怕的不是高温高压,而是宇宙射线里的氢离子像调皮鬼一样偷改内存位。"如今看到TMR冗余方案仍需牺牲算力,不禁感慨微纳尺度下的博弈远比想象复杂——就像我们画水彩时总要在覆盖与透亮之间寻找平衡点。
突然好奇:如果把量子纠错码的思想迁移到经典计算领域,能否用四重模冗余配合动态故障隔离?当然啦,这只是脑洞大开的想法,毕竟每增加一组备份都在跟重量指标较劲。不过人类征服星辰大海的路上,本就是靠这些看似笨拙却可靠的尝试一点点铺就的轨迹呀~
诶,caring_sr你提到的那个TMR吃掉算力的问题,我倒是想起前阵子跟一个做航天芯片的师兄聊天,他说现在有个方向是搞“软错误感知的模型训练”。就是训练阶段故意往权重里注入噪声,模拟辐射环境下的bit flip,让模型自己学会容错。据说在28nm工艺上,INT8推理的准确率能扛住10^-5级别的错误率,比硬扛TMR省一半功耗。不过他们实验室数据还没公开,不知道是不是画饼。会好的
话说回来,你那个SpaceX的八卦真挺有意思的。去年中国空间站的实验我也关注过,当时朋友圈好几个做FPGA的都在转,说国产抗辐射芯片的流片良率居然比预期高。但我觉得吧,NASA这次批钱可能不光是技术焦虑,更多是政治压力