等等,这个事我听到的版本有点不一样。你们知道荣耀和ARRI合作的消息出来后,我第一时间就托在深圳做手机供应链的朋友打听内幕吗?他说这根本不是简单的技术合作,而是荣耀在下一盘很大的棋。不是
怎么说我朋友说,荣耀内部从去年开始就在秘密组建一个“感知实验室”,挖了不少电影工业的调色师和光学工程师,开的薪水比互联网大厂还高。当时大家都纳闷,手机公司要电影调色师干嘛?现在看,他们早就想清楚要动ISP这块硬骨头了。唔绝了
但问题来了,你们想过没有,为什么是现在?为什么是荣耀?
我听说一个很关键的时间点:去年年底,某头部手机厂商的AI团队内部做过一次压力测试,用他们最新的端侧多模态模型去识别复杂场景——比如超市货架上的商品、停车场里的车牌、医院导诊台的指示牌。结果你们猜怎么着?在标准光照条件下准确率能到90%以上,但只要光线稍微复杂点,比如逆光、强反射、色温突变,准确率直接掉到60%以下。团队拆解问题发现,超过70%的错误都发生在ISP处理后的图像输入阶段——模型拿到的视觉信息本身就已经失真了。
这才是最要命的。你模型参数再大,训练数据再多,喂进去的是垃圾,输出的也只能是垃圾。
话说但为什么之前没人动ISP?对了rust42说得对,利益链太深了。我朋友给我算过一笔账:一家主流手机厂商,和上游sensor厂、ISP芯片供应商的联合调校周期至少18个月,前期投入的研发费用以亿计。这还不算,更关键的是用户习惯——消费者已经习惯了那种“AI美化”过的照片,天空要蓝得发假,人脸要白得发光,食物要鲜艳得流油。你突然给他们看接近真实的RAW图像?用户第一反应绝对是“这手机拍照退步了”。
所以荣耀这次找ARRI合作,本质上是在找“挡箭牌”。ARRI在电影行业的权威性太强了,强到可以重新定义什么是“好看”。用户看到“电影级色彩”这个标签,心理预期就从“拍得比我眼睛看到的更漂亮”变成了“拍得像电影一样有质感”。这个认知转换太重要了,等于是给技术升级铺好了心理台阶。
但我觉得最值得玩味的还不是这个,而是荣耀选择的切入点。他们没像苹果那样在ProRAW上做文章,也没像谷歌那样在计算摄影上死磕,而是直接拉上了电影工业的老大哥。这背后的逻辑是什么?
我猜,荣耀可能判断,下一轮端侧AI的竞争焦点会从“模型能力”转向“感知质量”。当大家的模型架构都趋同,训练数据都开源,算力都拉满的时候,决定胜负的反而变成了最前端的那个环节——你的眼睛(sensor+ISP)到底能看到多真实的世界。
这让我想起一个事。前两年有个做自动驾驶的朋友跟我吐槽,说他们测试时发现,同样的算法在不同品牌的量产车上表现差异巨大。最后查出来,问题出在前视摄像头的ISP参数上。有的车为了夜间画面“看起来更亮”,在ISP里加了强力的降噪和提亮,结果把远处微弱的刹车灯信号和路灯反光混在一起,导致误识别。而有的车ISP调校保守,画面噪点多,但关键信号保留得完整。嘿嘿
嘿嘿
额手机端的具身智能,未来要面对的场景复杂度可能比自动驾驶还高。它要在各种光照、天气、运动状态下理解世界,还要做出实时决策。如果感知层的信息是经过美化和压缩的,那后面的规划层就像戴着哈哈镜看世界,再聪明的脑子也得犯晕。
离谱不过话说回来,这条路的风险也明摆着。功耗是第一个大坎,就像楼上说的,RAW数据处理的功耗是sRGB的好几倍。我听说荣耀内部测试过,如果全程用接近RAW的管线,手机续航要缩水30%以上。所以他们很可能走的是混合路线——日常拍照用传统ISP保证续航和观感,AI任务触发时才切换到高保真模式。
卧槽
另一个风险是生态。现在所有的AI视觉模型,从CLIP到LLaVA,训练数据基本都是sRGB色彩空间的。你突然喂给它们电影级的宽动态图像,模型能不能适应?要不要重新训练?数据集要不要重建?话说这又是一笔巨大的投入。
怎么说但我觉得荣耀敢这么干,可能手里还藏着别的牌。我朋友暗示说,他们可能在和国内几家做视觉大模型的团队深度合作,定制训练数据管道。如果真是这样,那就不只是硬件升级,而是从数据到模型到硬件的全栈重构了。
最后说个八卦收尾吧。我听说某竞品厂商听到这个消息后,内部开了个紧急会议,会议标题叫“感知层危机”。有个高管在会上说了句挺有意思的话:“我们过去十年都在教AI怎么理解世界,却忘了先给AI一双好眼睛。”
现在想想,这话还真有点道理。你们觉得呢?