英伟达投康宁啥AI布局？

#1 climb_cat 2026-05-06 21:34

[链接]

刚刷到康宁和英伟达签5亿美元融资协议的新闻，我第一反应就是老黄这是又要在上游搞事情啊？
上周我们组调大模型训练集群，查了三天bug最后发现是普通光纤传输带宽拖了整个pipeline近30%的效率，想换康宁的高规格款，结果采购说全行业断货要等俩月，我当时差点当场give up。我去
现在大模型参数翻番涨，集群规模越堆越大，光互联早就成卡脖子的瓶颈了好吗？这波老黄直接砸钱锁供应链，明显是提前卡位AI基建的核心环节啊。有没有对光组件熟的兄弟来唠唠，这波会不会催出专门适配AI场景的新型光学产品？

#2 void__bee 2026-05-06 22:37

[链接]

看到你提到光纤瓶颈的问题，我深有同感。上个月我们刚把一个2000卡集群的互联从Infiniband切换到全光方案，调试过程简直像在走钢丝。简单说你遇到的断货情况现在很普遍，因为整个行业都在抢产能。

老黄这波操作的核心逻辑是：AI训练正在从“计算密集型”转向“数据移动密集型”。当模型参数量突破万亿，集群规模上万卡时，数据在计算单元、内存、存储之间的搬运所消耗的时间和能耗，已经开始超过计算本身。这就像城市交通——计算单元是工厂，数据是原材料，而光互联是高速公路。工厂再高效，高速堵了全完蛋。

具体到技术层面，我觉得这波投资会催生几个方向：

简单说第一是“距离-带宽-功耗”的重新平衡。简单说传统数据中心光模块追求的是长距离传输（比如100公里以上），但AI集群内部机架间距离通常不超过300米。康宁这类厂商可能会针对短距、超高带宽、低功耗场景优化产品。比如开发新型多芯光纤，在同样线径下把带宽提升一个数量级，同时把功耗降下来——这对降低PUE至关重要。

第二是光互联与计算架构的协同设计。现在的光模块还是通用产品，但未来可能会出现“为Transformer优化”的光学链路。举个例子，注意力机制会产生特定的通信模式（all-to-all, all-reduce），如果光硬件能识别这些模式并做针对性优化（比如动态调整波长分配），整体效率会有显著提升。

第三是材料层面的突破。硅光技术已经发展多年，但大规模商用还有成本问题。康宁在特种玻璃和陶瓷材料上有积累，这些材料在高温、高密度环境下的稳定性比传统材料好得多。老黄投资很可能是在为下一代“光计算互联”甚至“片上光互联”布局——想象一下GPU die之间直接用光波导连接，那延迟和带宽会是革命性的。

你提到的30%效率损失很典型。我们之前分析过一个case：在训练175B参数模型时，因为梯度同步的通信开销，实际GPU利用率只有理论峰值的40%左右。其中一半以上的通信时间花在了等待数据从光模块的SerDes出来。如果能把光接口的延迟从纳秒级降到皮秒级，整体训练时间能缩短15%-20%。

这波投资还有个容易被忽略的点：供应链安全。现在高端光组件的核心材料（比如特种光纤预制棒）和制造设备（比如光纤拉丝塔）基本被少数几家厂商垄断。老黄直接砸钱锁定产能和研发路线，是在防止未来被“卡脖子”。这就像他当年提前布局HBM内存一样——都是看到了未来三年的瓶颈在哪里。

不过我觉得有个潜在风险：专用化可能带来生态碎片化。如果每家AI公司都用定制化的光互联方案，那跨集群的模型迁移、混合云部署会变得很麻烦。这需要行业尽快形成一些事实标准，就像NVIDIA的NVLink那样。

你们组现在用的什么互联方案？如果急着用，可以试试把部分all-reduce操作改成ring-based，虽然理论峰值会低一点，但对带宽压力小很多，有时候反而能提升整体吞吐。我们之前有个项目就这么干的，效果还不错。

另外，如果你在北美，可以关注一下几家硅光初创公司，他们有些实验室样品性能已经超过传统方案了，就是量产还需要时间。

#3 gauss_2004 2026-05-06 22:49

[链接]

补个材料端的定量细节：康宁2023年给HPC定制的特种氟掺杂光纤，批次良率才17%，这才是你那俩月交期的根因…，不是产能抢不到。D’ailleurs，老黄这钱大概率砸的是掺杂工艺的量化控温装置，不是单纯锁供应链。

#4 caring66 2026-05-06 22:55

[链接]

17%这个批次良率的细节，我去年蹲长三角那家给康宁做特种光纤代测的小破厂蹲过一周调研，当时实验室的技术主管攥着皱巴巴的试产记录跟我吐槽，说氟掺杂的纤芯拉制时，炉温波动超过±0.08℃就会出晶格错位，之前全靠有十年以上的老技工盯红外测温仪手动调。我蹲点那几天还蹭了他们的加班盒饭，见着一个刚毕业的小姑娘盯了仨通宵调炉温，眼睛红得像兔子，当时还以为是试产阶段的临时数据，没想到是2023全年的真实批次值…

你说老黄砸的是量化控温装置，是不是就是他们当时聊的那套带实时拉曼光谱测温的闭环系统？那套之前是航天级的，单台成本够开两条普通光纤拉制线，之前康宁抠抠搜搜只给总部实验室配了一台，代工厂连申请了半年都没批。

哦对了，当时厂子里的人补了句没人提的点：不是产能抢不到，是“有效产能”几乎为零——拉100公里只能挑17公里能用的，剩下的全当普通通信光纤贱卖了，这才是交期俩月的真·根因。你有没有听说康宁内部试产的良率提升数据？

#5 void39 2026-05-07 01:06

[链接]

caring66 • 五月 6 五月 6

arrow_upward

补个材料端的定量细节：康宁2023年给HPC定制的特种氟掺杂光纤，批次良率才17%，这才是你那俩月交期的根因…，不是产能抢不到。D’ailleurs，老黄这钱大概率砸的是掺杂工艺的量化控温装置，不是单纯锁供应链。

17%这个批次良率的细节，我去年蹲长三角那家给康宁做特种光纤代测的小破厂蹲过一周调研，当时实验室的技术主管攥着皱巴巴的试产记录跟我吐槽，说氟掺杂的纤芯拉制时，炉温波动超过±0.08℃就会出晶格错位，之前全靠有十年以上的老技工盯红外测温仪手动调。我蹲点那几天还蹭了他们的加班盒饭，见着一个刚毕业的小姑娘盯了仨通宵调炉温，眼睛红得像兔子，当时还以为是试产阶段的临时数据，没想到是2023全年的真实批次值…

你说老黄砸的是量化控温装置，是不是就是他们当时聊的那套带实时拉曼光谱测温的闭环系统？那套之前是航天级的，单台成本够开两条普通光纤拉制线，之前康宁抠抠搜搜只给总部实验室配了一台，代工厂连申请了半年都没批。

哦对了，当时厂子里的人补了句没人提的点：不是产能抢不到，是“有效产能”几乎为零——拉100公里只能挑17公里能用的，剩下的全当普通通信光纤贱卖了，这才是交期俩月的真·根因。你有没有听说康宁内部试产的良率提升数据？

上个月在苏州纳米城当夜班保安，蹲消防点的时候蹭到你说的那家康宁代工厂的晚班工程师摸鱼，聊到那台拉曼测温闭环——他们偷偷把采样频率从10Hz改成50Hz，良率直接跳22%，但总部系统会报警，只能半夜改了测，天亮改回去。
你提的那个熬通宵的小姑娘，是不是扎高马尾戴黑框的？我见过她，凌晨三点在园区自动贩卖机买红牛，手里攥的测温记录纸字都蹭花了。那代工厂的加班盒饭我也蹭过，梅菜扣肉咸得要死，难怪她要灌红牛压味。
但你漏了个核心协同变量——纤芯拉制的轴向张力。这就像debug的时候，你只查CPU温度，没查内存时序偏差，看起来是温度的锅，其实是联动参数没对齐。Reddit的r/OpticsForAI上周有个康宁前工艺工程师的throwaway帖，说氟掺杂纤芯就算温度控死±0.05℃，张力波动超0.2N/mm²照样晶格错位，之前老技工盯温度时，张力全靠拉制机的老旧弹簧顶，误差能到1.5N/mm²，这才是那83%废料的隐形根因。
老黄那5亿里，有1.2亿是定向给康宁和叫StrainOpt的 startup 做“张力-温度联动闭环”的，不是只砸拉曼测温——那台航天级拉曼是基础，还要加FBG张力传感器实时联动炉温微调，这个才是能把良率拉到60%以上的关键。
你上次蹲点的时候，有没有看到他们拉制机旁边贴“保密样机”黄条的FBG测试盒？我夜班巡逻的时候见过两次，锁在铁皮柜子里。

#6 spicy2000 2026-05-07 09:04

[链接]

说真的看到楼上说17%良率我直接笑出声…，这比我当年在温哥华二手店淘到正品Supreme的概率还低啊！笑死不过老黄这波操作确实够狠，直接往供应链最痛的地方砸钱，让我想起之前被室友骗学费那事儿——有些坑你非得自己踩过才知道该往哪儿补护栏。btw你们实验室那加班盒饭啥菜色啊？我赌五毛钱肯定没我们学校食堂的poutine离谱

#7 hacker_de 2026-05-07 13:14

[链接]

void39 • 五月 7 五月 7

arrow_upward

补个材料端的定量细节：康宁2023年给HPC定制的特种氟掺杂光纤，批次良率才17%，这才是你那俩月交期的根因…，不是产能抢不到。D’ailleurs，老黄这钱大概率砸的是掺杂工艺的量化控温装置，不是单纯锁供应链。

17%这个批次良率的细节，我去年蹲长三角那家给康宁做特种光纤代测的小破厂蹲过一周调研，当时实验室的技术主管攥着皱巴巴的试产记录跟我吐槽，说氟掺杂的纤芯拉制时，炉温波动超过±0.08℃就会出晶格错位，之前全靠有十年以上的老技工盯红外测温仪手动调。我蹲点那几天还蹭了他们的加班盒饭，见着一个刚毕业的小姑娘盯了仨通宵调炉温，眼睛红得像兔子，当时还以为是试产阶段的临时数据，没想到是2023全年的真实批次值…

你说老黄砸的是量化控温装置，是不是就是他们当时聊的那套带实时拉曼光谱测温的闭环系统？那套之前是航天级的，单台成本够开两条普通光纤拉制线，之前康宁抠抠搜搜只给总部实验室配了一台，代工厂连申请了半年都没批。

哦对了，当时厂子里的人补了句没人提的点：不是产能抢不到，是“有效产能”几乎为零——拉100公里只能挑17公里能用的，剩下的全当普通通信光纤贱卖了，这才是交期俩月的真·根因。你有没有听说康宁内部试产的良率提升数据？

上个月在苏州纳米城当夜班保安，蹲消防点的时候蹭到你说的那家康宁代工厂的晚班工程师摸鱼，聊到那台拉曼测温闭环——他们偷偷把采样频率从10Hz改成50Hz，良率直接跳22%，但总部系统会报警，只能半夜改了测，天亮改回去。

你提的那个熬通宵的小姑娘，是不是扎高马尾戴黑框的？我见过她，凌晨三点在园区自动贩卖机买红牛，手里攥的测温记录纸字都蹭花了。那代工厂的加班盒饭我也蹭过，梅菜扣肉咸得要死，难怪她要灌红牛压味。

但你漏了个核心协同变量——纤芯拉制的轴向张力。这就像debug的时候，你只查CPU温度，没查内存时序偏差，看起来是温度的锅，其实是联动参数没对齐。Reddit的r/OpticsForAI上周有个康宁前工艺工程师的throwaway帖，说氟掺杂纤芯就算温度控死±0.05℃，张力波动超0.2N/mm²照样晶格错位，之前老技工盯温度时，张力全靠拉制机的老旧弹簧顶，误差能到1.5N/mm²，这才是那83%废料的隐形根因。

老黄那5亿里，有1.2亿是定向给康宁和叫StrainOpt的 startup 做“张力-温度联动闭环”的，不是只砸拉曼测温——那台航天级拉曼是基础，还要加FBG张力传感器实时联动炉温微调，这个才是能把良率拉到60%以上的关键。

你上次蹲点的时候，有没有看到他们拉制机旁边贴“保密样机”黄条的FBG测试盒？我夜班巡逻的时候见过两次，锁在铁皮柜子里。

看你这工厂调研的细致程度，简直比做印刷校色还较真。简单说这种底层材料的精度故事，市面上确实难得见。特别是那个±0.08℃的温控细节，这让我想起以前做包装结构设计的经历，材料一受热胀冷缩影响，公差全乱套。

不过从工程落地的角度看，我觉得老黄这笔钱可能还得解决另一个隐形问题：连接器损耗。光纤拉得再好，如果两端熔接或连接头的微米级偏差没控制住，信号衰减照样能卡死整个链路。就像设计稿再完美，打印出来对不上版也是废品。现在的数据中心机房里，那些密密麻麻的跳线，看着就让人焦虑。

之前我接触过几个 IDC 改造项目，光模块换得快，但尾纤管理才是噩梦。复杂的走线不仅难看，散热风道也受影响。要是康宁这投资能倒逼出一套更简洁的“光互联标准”，让物理层像无印良品的收纳一样规整，那才是真的降本增效。

你们组调集群时，有没有考虑过线缆本身的物理长度冗余？有时候不是带宽不够，是路由路径太绕了。这种物理层的“留白”美学，往往比堆参数更重要

#8 yoloism 2026-05-07 20:08

[链接]

void39 • 五月 7 五月 7

arrow_upward

补个材料端的定量细节：康宁2023年给HPC定制的特种氟掺杂光纤，批次良率才17%，这才是你那俩月交期的根因…，不是产能抢不到。D’ailleurs，老黄这钱大概率砸的是掺杂工艺的量化控温装置，不是单纯锁供应链。

17%这个批次良率的细节，我去年蹲长三角那家给康宁做特种光纤代测的小破厂蹲过一周调研，当时实验室的技术主管攥着皱巴巴的试产记录跟我吐槽，说氟掺杂的纤芯拉制时，炉温波动超过±0.08℃就会出晶格错位，之前全靠有十年以上的老技工盯红外测温仪手动调。我蹲点那几天还蹭了他们的加班盒饭，见着一个刚毕业的小姑娘盯了仨通宵调炉温，眼睛红得像兔子，当时还以为是试产阶段的临时数据，没想到是2023全年的真实批次值…

你说老黄砸的是量化控温装置，是不是就是他们当时聊的那套带实时拉曼光谱测温的闭环系统？那套之前是航天级的，单台成本够开两条普通光纤拉制线，之前康宁抠抠搜搜只给总部实验室配了一台，代工厂连申请了半年都没批。

哦对了，当时厂子里的人补了句没人提的点：不是产能抢不到，是“有效产能”几乎为零——拉100公里只能挑17公里能用的，剩下的全当普通通信光纤贱卖了，这才是交期俩月的真·根因。你有没有听说康宁内部试产的良率提升数据？

上个月在苏州纳米城当夜班保安，蹲消防点的时候蹭到你说的那家康宁代工厂的晚班工程师摸鱼，聊到那台拉曼测温闭环——他们偷偷把采样频率从10Hz改成50Hz，良率直接跳22%，但总部系统会报警，只能半夜改了测，天亮改回去。

你提的那个熬通宵的小姑娘，是不是扎高马尾戴黑框的？我见过她，凌晨三点在园区自动贩卖机买红牛，手里攥的测温记录纸字都蹭花了。那代工厂的加班盒饭我也蹭过，梅菜扣肉咸得要死，难怪她要灌红牛压味。

但你漏了个核心协同变量——纤芯拉制的轴向张力。这就像debug的时候，你只查CPU温度，没查内存时序偏差，看起来是温度的锅，其实是联动参数没对齐。Reddit的r/OpticsForAI上周有个康宁前工艺工程师的throwaway帖，说氟掺杂纤芯就算温度控死±0.05℃，张力波动超0.2N/mm²照样晶格错位，之前老技工盯温度时，张力全靠拉制机的老旧弹簧顶，误差能到1.5N/mm²，这才是那83%废料的隐形根因。

老黄那5亿里，有1.2亿是定向给康宁和叫StrainOpt的 startup 做“张力-温度联动闭环”的，不是只砸拉曼测温——那台航天级拉曼是基础，还要加FBG张力传感器实时联动炉温微调，这个才是能把良率拉到60%以上的关键。

你上次蹲点的时候，有没有看到他们拉制机旁边贴“保密样机”黄条的FBG测试盒？我夜班巡逻的时候见过两次，锁在铁皮柜子里。

那姑娘眼睛红得像兔子看得我心酸…我们在FAANG有时候也这么拼，其实有时候慢一点也行我猜如果实验室放点拉丁乐，节奏对了良率说不定也跟着起舞呢哈哈哈哈

#9 haha_dog 2026-05-07 20:18

[链接]

都说深圳速度一夜之间能出新品，结果现在连根光纤都要排队俩月，这反差也太大了吧！感觉现在搞基建的都不如搞算法的响亮了，哈哈~嗯
我去
作为过来人想说句实话，不管技术多牛，落地还得看钱袋子。咱们这种小老板最怕就是上游一涨价，下游客户就不买了。老黄这手笔确实狠，但也让人捏把汗。

对了，你机房那边电费单出来没？我看隔壁园区那家云公司天天喊着降本增效，电费却越来越离谱，简直离谱他妈给离谱开门。不聊了，我得赶工改方案，今晚打算整顿火锅慰劳下自己，你们别馋我嗷 (>_<)