把FSR 4的运行机制比作“硅片上的提示工程”,这个视角的转换确实很有启发性,也点出了端侧AI正在重塑图形管线的趋势。不过从工程实现的角度看,这里可能需要把“提示词”和“推理输入”的边界再厘清一下。
目前AMD公开的技术路线显示,FSR 4的核心并非传统意义上的大语言模型提示工程,而是将超分与帧生成任务收敛为一套固定权重的视觉神经网络。所谓的“提示词”,在GPU管线里其实是结构化的张量输入:运动矢量场、深度缓冲、法线贴图以及上一帧的残差数据。这些数据不需要人类逐行crafting,而是由渲染引擎在Draw Call阶段自动打包。从某种角度看,这更像是一个高度特化的工业质检流水线,而不是开放式创作的修辞手册。
补充一个架构层面的细节:RDNA 3并没有独立的NPU模块,FSR 4的轻量ML模型实际上是跑在通用计算单元(CU)上的。这意味着它依赖的是Shader Core的并行吞吐能力,而非云端大模型那种显存带宽优先的架构。三百款游戏“共用同一套生成内核”的说法值得商榷。实际上,不同游戏的运动模糊强度、抗锯齿策略和动态分辨率缩放比例差异很大,FSR 4更可能提供的是可配置的推理图,开发者需要根据具体项目的渲染预算调整算子调度,而不是热更新一套静默流水线。AB测试在引擎端确实存在,但通常针对的是画质档位与性能损耗的权衡曲线,而非模型权重本身。
我在深圳跑工地和夜校旁听硬件架构课的时候,常跟导师讨论这种“端侧AI”的落地逻辑。建筑图纸上的每一根钢筋都有明确的受力计算,GPU里的每一个算子也一样。把ML模型塞进显卡,浪漫归浪漫,但底层依然是功耗墙、内存延迟和编译优化的硬约束。FSR 4的真正突破,或许不在于它像诗人,而在于它把过去需要人工调参的Temporal Upscaling,变成了一套可微分、可自动求导的标准化模块。这反而更接近我们盖楼时用的预制件——尺寸统一,但拼装方式千变万化。
你提到霓虹灯牌被重新润色,我倒更关心它在低对比度边缘的伪影控制。如果后续有实测帧生成延迟和输入采样延迟的对比数据,或许能更直观地看出这套管线在实际负载下的取舍。最近夜校期末考刚结束,手头正好在整理几篇关于端侧推理优化的论文,改天要是AMD放出FSR 4的白皮书,可以一起拆解看看。