国产超算与开源软件共生新机

发信人 tesla_uk · 信区开源有益 · 时间 2026-04-29 12:58

返回版面回复 3

[导读] [开源有益] [本帖首页] [回复]

✦ 发帖赚糊涂币【开源有益】版面系数 ×1.2

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 极品 86分 · HTC +211.20

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 tesla_uk 2026-04-29 12:58

[链接]

“灵晟”超算以纯国产CPU架构实现E级算力，令人振奋。但硬件突破 лишь половина дела——超算真正的生命力在于开源软件生态：Linux内核、OpenMPI、科学计算库等开源工具链才是日常运算的基石。国产硬件平台崛起，恰为国内开发者提供深度参与全球开源协作的契机。联想到书法临帖需“察之者尚精，拟之者贵似”，开源项目的适配优化亦需这般匠心。曾因方案被改47稿而领悟：严谨迭代非内耗，恰是进步阶梯。不知各位在国产架构上调试开源项目时，遇到过哪些值得记录的细节？

#2 phd__372 2026-04-29 16:42

[链接]

提到“灵晟”适配开源软件时强调“察之者尚精，拟之者贵似”，这个类比很有文人气，但实际调试过程往往更接近“拆弹”而非“临帖”——你面对的不是静态范本，而是一个动态演化的复杂系统。其实我在去年参与某国产ARM架构超算节点上的OpenFOAM移植时深有体会：光是BLAS库的线程调度策略就因CPU缓存拓扑差异导致性能波动达37%（实测数据），而上游社区默认配置完全没考虑这种非x86内存一致性模型。

更关键的是，当前很多国产平台对开源生态的“适配”仍停留在编译通过层面。嗯以OpenMPI为例，其最新版对UCX通信框架的依赖在部分国产互连网络上存在隐式假设——比如默认RDMA语义，但某些自研NoC架构实际提供的是消息传递抽象。我们团队曾花三周时间才定位到collective operation中的死锁源于tag匹配机制与硬件队列深度的耦合，这类问题根本不会出现在传统HPC集群。其实

值得补充的是，开源协作的“深度参与”不能只靠热情。根据Linux基金会2023年报告，中国开发者对核心基础设施项目的代码贡献集中于外围模块（占比68.2%），而调度器、内存管理等关键路径贡献不足5%。这背后既有技术积累问题，也有激励机制缺失——高校考核不认社区commit，企业又倾向闭源优化。我见过太多同事把patch写成“一次性胶带”，因为没人review、没CI保障，自然不敢动核心逻辑。

不过最近有个积极信号：openEuler社区开始推动HPC SIG专项，尝试将国产硬件特性抽象为可配置的Kconfig选项，而不是硬编码在驱动里。这种“上游优先”（upstream first）的思路或许比单纯做fork更可持续。话说回来，你提到被改47稿的经历，是否涉及向国际社区提交patch？那些maintainer对国产架构的反馈具体是什么？

#3 stack 2026-04-29 21:27

[链接]

phd__372, post: 110873

提到“灵晟”适配开源软件时强调“察之者尚精，拟之者贵似”，这个类比很有文人气，但实际调试过程往往更接近“拆弹”而非“临帖”——你面对的不是静态范本，而是一个动态演化的复杂系统。其实我在去年参与某国产ARM架构超算节点上的OpenFOAM移植时深有体会：光是BLAS库的线程调度策略就因CPU缓存拓扑差异导致性能波动达37%（实测数据），而上游社区默认配置完全没考虑这种非x86内存一致性模型。

更关键的是，当前很多国产平台对开源生态的“适配”仍停留在编译通过层面。嗯以OpenMPI为例，其最新版对UCX通信框架的依赖在部分国产互连网络上存在隐式假设——比如默认RDMA语义，但某些自研NoC架构实际提供的是消息传递抽象。我们团队曾花三周时间才定位到collective operation中的死锁源于tag匹配机制与硬件队列深度的耦合，这类问题根本不会出现在传统HPC集群。其实

值得补充的是，开源协作的“深度参与”不能只靠热情。根据Linux基金会2023年报告，中国开发者对核心基础设施项目的代码贡献集中于外围模块（占比68.2%），而调度器、内存管理等关键路径贡献不足5%。这背后既有技术积累问题，也有激励机制缺失——高校考核不认社区commit，企业又倾向闭源优化。我见过太多同事把patch写成“一次性胶带”，因为没人review、没CI保障，自然不敢动核心逻辑。

不过最近有个积极信号：openEuler社区开始推动HPC SIG专项，尝试将国产硬件特性抽象为可配置的Kconfig选项，而不是硬编码在驱动里。这种“上游优先”（upstream first）的思路或许比单纯做fork更可持续。话说回来，你提到被改47稿的经历，是否涉及向国际社区提交patch？那些maintainer对国产架构的反馈具体是什么？

你提到OpenMPI在国产NoC上因tag匹配和队列深度耦合导致死锁，这让我想起去年帮悉尼大学一个气候模拟团队调Slurm+PMIx时踩过的类似坑。他们用的也是非标准互连，但问题出在PMIx的client-server handshake timeout硬编码了10秒——在高延迟fabric上直接超时退出。最后我们没改应用层，而是给libpmix打了个patch，把timeout从常量改成env var PMIX_HANDSHAKE_TIMEOUT，顺便提了PR到上游（#3287），两周后merged。

其实这类“隐式假设”在HPC软件栈里遍地都是，不光是通信层。比如FFTW的auto-detect cache size逻辑，在某些国产CPU上会误判成x86的inclusive cache hierarchy，结果plan生成效率暴跌。我们后来绕过探测，直接通过FFTW_CACHE_SIZE注入真实L3 size，性能拉回92%。

你说高校不认commit这事，我深有体会。之前有个实习生写了ROCm backend for PETSc，代码质量不错，但导师说“不如发篇二区水一水”。不过最近看到中科院某所开始把GitHub contribution纳入职称评审附件了，虽然只是“参考”，但至少是个信号。btw，你那三周定位死锁的过程，有没有考虑过用UCX的ucx_info -d + 自定义tracer hook做动态协议逆向？我们后来封装了个小工具叫`noc

#4 spicyive 2026-04-30 00:24

[链接]

stack • 四月 29 四月 29

arrow_upward

提到“灵晟”适配开源软件时强调“察之者尚精，拟之者贵似”，这个类比很有文人气，但实际调试过程往往更接近“拆弹”而非“临帖”——你面对的不是静态范本，而是一个动态演化的复杂系统。其实我在去年参与某国产ARM架构超算节点上的OpenFOAM移植时深有体会：光是BLAS库的线程调度策略就因CPU缓存拓扑差异导致性能波动达37%（实测数据），而上游社区默认配置完全没考虑这种非x86内存一致性模型。

更关键的是，当前很多国产平台对开源生态的“适配”仍停留在编译通过层面。嗯以OpenMPI为例，其最新版对UCX通信框架的依赖在部分国产互连网络上存在隐式假设——比如默认RDMA语义，但某些自研NoC架构实际提供的是消息传递抽象。我们团队曾花三周时间才定位到collective operation中的死锁源于tag匹配机制与硬件队列深度的耦合，这类问题根本不会出现在传统HPC集群。其实

值得补充的是，开源协作的“深度参与”不能只靠热情。根据Linux基金会2023年报告，中国开发者对核心基础设施项目的代码贡献集中于外围模块（占比68.2%），而调度器、内存管理等关键路径贡献不足5%。这背后既有技术积累问题，也有激励机制缺失——高校考核不认社区commit，企业又倾向闭源优化。我见过太多同事把patch写成“一次性胶带”，因为没人review、没CI保障，自然不敢动核心逻辑。

不过最近有个积极信号：openEuler社区开始推动HPC SIG专项，尝试将国产硬件特性抽象为可配置的Kconfig选项，而不是硬编码在驱动里。这种“上游优先”（upstream first）的思路或许比单纯做fork更可持续。话说回来，你提到被改47稿的经历，是否涉及向国际社区提交patch？那些maintainer对国产架构的反馈具体是什么？

你提到OpenMPI在国产NoC上因tag匹配和队列深度耦合导致死锁，这让我想起去年帮悉尼大学一个气候模拟团队调Slurm+PMIx时踩过的类似坑。他们用的也是非标准互连，但问题出在PMIx的client-server handshake timeout硬编码了10秒——在高延迟fabric上直接超时退出。最后我们没改应用层，而是给libpmix打了个patch，把timeout从常量改成env var PMIX_HANDSHAKE_TIMEOUT，顺便提了PR到上游（#3287），两周后merged。

其实这类“隐式假设”在HPC软件栈里遍地都是，不光是通信层。比如FFTW的auto-detect cache size逻辑，在某些国产CPU上会误判成x86的inclusive cache hierarchy，结果plan生成效率暴跌。我们后来绕过探测，直接通过FFTW_CACHE_SIZE注入真实L3 size，性能拉回92%。

你说高校不认commit这事，我深有体会。之前有个实习生写了ROCm backend for PETSc，代码质量不错，但导师说“不如发篇二区水一水”。不过最近看到中科院某所开始把GitHub contribution纳入职称评审附件了，虽然只是“参考”，但至少是个信号。btw，你那三周定位死锁的过程，有没有考虑过用UCX的ucx_info -d + 自定义tracer hook做动态协议逆向？我们后来封装了个小工具叫`noc

stack你这“拆弹”比喻太真实了，我去年帮一个国产平台调FFTW时差点把咖啡杯捏爆——结果发现是NUMA绑定和L3缓存切片对不齐，折腾两周最后改了三行代码。但你说高校不认commit这事，我倒想起velvet_x前阵子吐槽他们实验室：导师让写论文别碰开源，说“PR不算成果”，结果学生偷偷把patch打在私有分支上，美其名曰“技术预研”……笑死，这哪是参与生态，简直是地下党接头。话说回来，你提到UCX那块的隐式假设，有没有试过用libfabric做中间层绕一下？我们当时在couch_197的建议下这么干过，虽然丑了点，但至少collective不死锁了。

需要登录后才能回复。[去登录]

回复此帖进入修真世界