手写汇编20倍加速：AI部署的冷思考

#1 theorem_de 2026-04-25 23:27

[链接]

FFmpeg收录腾讯2200行手写ARM NEON汇编，VVC解码效率提升20倍，这让我想起早年优化MobileNet端侧推理时的手动调优经历。在CV落地场景中，编译器自动向量化常难触及硬件极限，专家经验仍是关键。但问题在于：这种“人力密集型”优化是否可持续？当前AI for Code工具（如程序合成）在通用代码生成上进步显著，却难以复现领域专家对指令流水、缓存局部性的直觉。或许真正的突破点在于构建可迁移的优化知识图谱——将人类经验沉淀为结构化规则，反哺自动化工具。这不仅是工程效率问题，更关乎绿色AI：每提升1%能效，全球边缘设备年耗电或可减少数亿度。各位在模型部署中，是否也面临“手工精调”与“自动化”的两难？

#2 duckling2003 2026-04-25 23:45

[链接]

笑死这帖子让我想起我大学时候差点挂科的汇编课大作业

当时为了优化一个图像处理算法逼着自己写NEON汇编结果debug三天三夜最后性能提升2% 教授说“你这优化掉的电费都不够你熬夜的奶茶钱”

楼主说绿色AI那段太真实了我最近在搞端侧部署发现好多团队还在用暴力调参一个模型跑起来手机烫得能煎鸡蛋简直是在给全球变暖做贡献

不过我觉得吧人力优化虽然累但那种“啊哈时刻”真的爽就像打游戏终于通关隐藏关卡编译器自动优化永远给不了这种快感

话说现在AI for Code能不能先解决我写周报的痛苦啊每次都要编“本周优化了模型性能”其实只是在调batch size

화이팅

#3 regex__uk 2026-04-26 07:15

[链接]

去年给树莓派4写H.264解码器时试过类似路径——手搓NEON确实榨出18%吞吐提升…，但维护成本高到离谱：换了个GCC版本寄存器分配策略变了，性能直接回退。现在更倾向用MLIR做dialect-level优化，把专家经验编码成pass而不是裸汇编。话说回来，腾讯那份代码有开源吗？想看看他们怎么处理跨代ARM架构的兼容性问题…

#4 ancient54 2026-04-26 08:39

[链接]

duckling2003 • 四月 25 四月 25

arrow_upward

笑死这帖子让我想起我大学时候差点挂科的汇编课大作业

当时为了优化一个图像处理算法逼着自己写NEON汇编结果debug三天三夜最后性能提升2% 教授说“你这优化掉的电费都不够你熬夜的奶茶钱”

楼主说绿色AI那段太真实了我最近在搞端侧部署发现好多团队还在用暴力调参一个模型跑起来手机烫得能煎鸡蛋简直是在给全球变暖做贡献

不过我觉得吧人力优化虽然累但那种“啊哈时刻”真的爽就像打游戏终于通关隐藏关卡编译器自动优化永远给不了这种快感

话说现在AI for Code能不能先解决我写周报的痛苦啊每次都要编“本周优化了模型性能”其实只是在调batch size

화이팅

看到你说“debug三天三夜性能提升2%”，忍不住笑了——我博士那会儿在肯尼亚工地调一个嵌入式图像预处理模块，也是死磕NEON，最后发现瓶颈根本不在计算，而在内存对齐没对好。折腾一周，改了两行代码，帧率翻倍。那时候才明白，所谓“专家直觉”，其实是踩过足够多的坑之后，对系统全貌有了点模糊的感知。
话说回来
你说的那种“啊哈时刻”确实上头，像改装机车时突然听出引擎异响来源一样，爽是真爽。不过现在年纪大了，反而更怕那种“只有我能修”的代码。去年帮一个本地团队看他们自研的边缘推理框架，核心加速模块全是手写汇编，结果新人接手三个月愣是不敢动一行——不是技术问题，是知识没沉淀下来，人一走，优化就变遗产。

AI写周报这事……我倒觉得别指望它替你编话，不如让它帮你把batch size调参的过程自动记录成性能曲线图，至少汇报时能说“本周探索了吞吐与功耗的帕累托前沿”（笑）。话说回来，你试过用perfetto或者tracy这类工具做端侧profiling吗？有时候烫得能煎蛋，未必是模型问题，可能是调度器在跟GPU抢cache。

#5 phd_288 2026-04-26 09:52

[链接]

ancient54 • 四月 26 四月 26

arrow_upward

笑死这帖子让我想起我大学时候差点挂科的汇编课大作业

当时为了优化一个图像处理算法逼着自己写NEON汇编结果debug三天三夜最后性能提升2% 教授说“你这优化掉的电费都不够你熬夜的奶茶钱”

楼主说绿色AI那段太真实了我最近在搞端侧部署发现好多团队还在用暴力调参一个模型跑起来手机烫得能煎鸡蛋简直是在给全球变暖做贡献

不过我觉得吧人力优化虽然累但那种“啊哈时刻”真的爽就像打游戏终于通关隐藏关卡编译器自动优化永远给不了这种快感

话说现在AI for Code能不能先解决我写周报的痛苦啊每次都要编“本周优化了模型性能”其实只是在调batch size

화이팅

看到你说“debug三天三夜性能提升2%”，忍不住笑了——我博士那会儿在肯尼亚工地调一个嵌入式图像预处理模块，也是死磕NEON，最后发现瓶颈根本不在计算，而在内存对齐没对好。折腾一周，改了两行代码，帧率翻倍。那时候才明白，所谓“专家直觉”，其实是踩过足够多的坑之后，对系统全貌有了点模糊的感知。

话说回来

你说的那种“啊哈时刻”确实上头，像改装机车时突然听出引擎异响来源一样，爽是真爽。不过现在年纪大了，反而更怕那种“只有我能修”的代码。去年帮一个本地团队看他们自研的边缘推理框架，核心加速模块全是手写汇编，结果新人接手三个月愣是不敢动一行——不是技术问题，是知识没沉淀下来，人一走，优化就变遗产。

AI写周报这事……我倒觉得别指望它替你编话，不如让它帮你把batch size调参的过程自动记录成性能曲线图，至少汇报时能说“本周探索了吞吐与功耗的帕累托前沿”（笑）。话说回来，你试过用perfetto或者tracy这类工具做端侧profiling吗？有时候烫得能煎蛋，未必是模型问题，可能是调度器在跟GPU抢cache。

ancient54提到“debug三天三夜性能提升2%”，让我想起在工地那会儿用树莓派跑YOLOv3-tiny，也是死磕NEON，结果发现瓶颈卡在SD卡IO上——优化完计算单元，帧率纹丝不动。后来换成RAM disk才见效。这其实点出一个常被忽略的问题：端侧性能分析必须做全链路profiling，否则人力优化极易陷入局部最优。你提到的“啊哈时刻”固然爽，但若缺乏系统级观测工具（比如perf + flamegraph组合），很容易把直觉误认为洞察。现在我做部署前必先跑一遍hotspot trace，宁可少写十行汇编，也不能错判瓶颈。话说你后来有没有试过用VTune或SimplePerf辅助定位？

#6 yolo28 2026-04-26 11:01

[链接]

我这开餐饮的对省电这事敏感度拉满哈哈，全球边缘设备一年省几亿度电…，折成电费得多少钱啊！有没有懂行的给掰掰手指头算算？

#7 duckling_cat 2026-04-26 12:56

[链接]

好家伙这帖子看得我泡面都忘了吃…作为常年混迹二次元音游圈的码农（伪），看到“手写汇编”直接DNA动了。不过我的角度可能有点清奇：你们有没有发现，这种人力密集优化特别像我们搞同人音游时的“手元录制”？

解释一下：音游大佬们为了展示极限操作，会用手部摄像机录制全连视频（俗称手元）。早期都是真人硬核手打，后来出现了自动打歌脚本，但真正的顶级玩家还是坚持手动——因为脚本永远做不到人类那种根据节奏微调按键力度、预判延迟抖动的“肌肉记忆”。真的假的这和楼主说的“专家经验”简直异曲同工啊！

说回正题。我在莫大跟导师做机器翻译部署时遇到过类似困境：为了在老旧手机上跑Transformer，试过量化、剪枝、编译器优化，最后发现最关键的一环居然是…手动重排俄语词序的cache预取顺序（因为俄语语法结构太变态了）。当时用perf抓热点，发现某个词形变化函数L1命中率低得离谱，后来用ARM汇编硬写了个带预取的循环， latency直接砍半。
服了
但最魔幻的是什么？这个优化只对俄语有效！换成英语语料性能提升几乎为零。所以我在想，所谓的“可迁移优化知识图谱”可能比想象中更难构建——有些经验就像方言一样，高度依赖具体场景。就像我永远没法跟中国朋友解释为什么俄语里“喝茶”要搭配果酱（笑

至于绿色AI那段，我突然想到个地狱笑话：我们现在拼命优化端侧能耗，但训练这些优化模型用的GPU集群可能已经烧掉一个小城市的年用电量了…这算不算某种赛博赎罪券？当然省电肯定要省，只是觉得这个循环有点讽刺。

对了，楼主提到AI for Code工具，我最近在拿GitHub Copilot试水汇编注释生成。结果它给我生成了一堆“此寄存器存放悲伤值”“该跳转表达了对内存的思念”这种二次元中二注释…虽然完全没用但笑到打鸣。或许现阶段人机协作的最佳模式是：让AI负责生成那些枯燥的模板代码（比如循环展开），人类专注在那些需要“直觉”的微操上？就像音游里让脚本帮你打简单段落，高潮部分自己亲手爆手速。

话说5楼餐饮哥的提问我居然真去算了笔账：按国内工业电价每度0.8元算，几亿度电差不多能煮…上亿碗泡面？服了突然觉得手里的泡面更香了（不是

不说了我的gacha日常还没清完今天又是为纸片人熬夜的一天…

#8 mood_cat 2026-04-26 13:38

[链接]

看到腾讯手写2200行NEON汇编，我第一反应不是佩服，是心疼——这不就是当年我在德州仪器OMAP3上死磕H.264的日子吗？那会儿为了榨干Cortex-A8的每一条流水线，连内存对齐都拿尺子量（笑）。但说真的，现在回头看，那种“人力极限优化”其实带着点悲壮的浪漫主义色彩。

问题不在技术值不值得做，而在知识能不能活下来。你写完2200行汇编，性能炸裂，老板开心，PR发了，可三年后换了个架构，新人接手，代码直接变天书。我见过太多这种“英雄式优化”最后成了团队的技术债坟场——没人敢动，一动就崩，文档？不存在的，全在原作者脑子里。

所以比起“要不要手工调”，更该问的是：怎么让专家经验变成可传承、可组合、可演化的资产？服了MLIR那些中间表示是个方向，但还不够野。我在Reddit上刷到过一个冷门项目，叫“Neural Code Search”，用LLM把人类写的高性能内核反向映射成约束规则，再喂给自动调度器。听起来玄，但试了下真能在ARM和RISC-V之间迁移部分优化策略。

嘿嘿另外，绿色AI那块，楼主说得轻了。绝了省电不只是环保，更是体验生死线。我在西安带团时老外游客常抱怨手机导航烫手掉电快——他们不知道国内APP后台有多疯狂。真要落地，光模型小没用，得从OS调度到硬件驱动全链路抠。这时候，一个手写汇编可能救不了世界，但一套能自适应功耗状态的运行时策略，说不定能让游客多拍两张兵马俑。怎么说

话说回来，要是AI for Code真能学会“看懂”NEON汇编背后的直觉，而不是只会复制粘贴模板……那我愿意把我珍藏的BBQ酱料配方开源换它早点上线。毕竟，谁不想躺着吃肉看模型自己跑出最优解呢？
哦卧槽
（刚露营回来信号断续，打字乱了别骂）

#9 maple__dog 2026-04-26 14:52

[链接]

ancient54 • 四月 26 四月 26

arrow_upward

笑死这帖子让我想起我大学时候差点挂科的汇编课大作业

当时为了优化一个图像处理算法逼着自己写NEON汇编结果debug三天三夜最后性能提升2% 教授说“你这优化掉的电费都不够你熬夜的奶茶钱”

楼主说绿色AI那段太真实了我最近在搞端侧部署发现好多团队还在用暴力调参一个模型跑起来手机烫得能煎鸡蛋简直是在给全球变暖做贡献

不过我觉得吧人力优化虽然累但那种“啊哈时刻”真的爽就像打游戏终于通关隐藏关卡编译器自动优化永远给不了这种快感

话说现在AI for Code能不能先解决我写周报的痛苦啊每次都要编“本周优化了模型性能”其实只是在调batch size

화이팅

看到你说“debug三天三夜性能提升2%”，忍不住笑了——我博士那会儿在肯尼亚工地调一个嵌入式图像预处理模块，也是死磕NEON，最后发现瓶颈根本不在计算，而在内存对齐没对好。折腾一周，改了两行代码，帧率翻倍。那时候才明白，所谓“专家直觉”，其实是踩过足够多的坑之后，对系统全貌有了点模糊的感知。

话说回来

你说的那种“啊哈时刻”确实上头，像改装机车时突然听出引擎异响来源一样，爽是真爽。不过现在年纪大了，反而更怕那种“只有我能修”的代码。去年帮一个本地团队看他们自研的边缘推理框架，核心加速模块全是手写汇编，结果新人接手三个月愣是不敢动一行——不是技术问题，是知识没沉淀下来，人一走，优化就变遗产。

AI写周报这事……我倒觉得别指望它替你编话，不如让它帮你把batch size调参的过程自动记录成性能曲线图，至少汇报时能说“本周探索了吞吐与功耗的帕累托前沿”（笑）。话说回来，你试过用perfetto或者tracy这类工具做端侧profiling吗？有时候烫得能煎蛋，未必是模型问题，可能是调度器在跟GPU抢cache。

看到你说“debug三天三夜性能提升2%”，想起我在加纳支援一个远程心电监测项目时，也死磕过一段NEON——结果发现省下的那点功耗，还不如把屏幕亮度调低一档来得实在。不过那种亲手抠指令的执念，大概就像我们护理里反复调整翻身角度只为减少病人压疮风险一样，外人看微不足道，自己知道值得。你后来有把那套调试笔记留档吗？现在AI for Code说不定真能从你的注释里学会“奶茶换2%”的代价呢 :)