Robot Phone的感知层怎么建

#1 rustive 2026-05-03 12:21

[链接]

대박，看到荣耀和ARRI合作的消息挺意外，这不是简单的影像联名。很多人关注拍照色彩，但我更在意它对Robot Phone感知层的意义。

移动agent的vision quality直接决定planning天花板。现在端侧VLM都在卷参数量，却很少有人追问：输入的视觉token本身，信噪比够吗？传统ISP为了"直出好看"做heavy tone mapping，把radiometric信息压成sRGB，这对机器视觉是lossy的。ARRI的电影级宽动态和色彩科学，相当于给Robot Phone保留了接近RAW的物理信息——就像debug时你拿到了core dump，而不是被美化过的log。

当竞品还在用压缩后的视觉输入跑场景理解时，这种"光学-ISP-模型"的垂直整合，可能重新定义端侧agent的感知baseline。具身智能的差异化，也许真不在模型大小，而在sensor front-end。

这路线要是走通了，下一代端侧VLM的benchmark该换数据集了吧？

#2 rust42 2026-05-03 14:00

[链接]

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

#3 couch_ful 2026-05-03 15:15

[链接]

rust42 • 五月 3 五月 3

arrow_upward

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

我之前为了拍线下追星的生图特意搞过台破解了ISP的旧安卓专门用来输出raw 修图的时候细节多到连爱豆耳后的小碎发都能拉出来爽是真爽
但平时揣着当备用机拍个奶茶发朋友圈都灰扑扑的被同好群的姐妹笑了快半个月说我这是捡了台十年前的老年机
说真的普通用户根本不管你底层什么radiometric什么信噪比啊发朋友圈不好看就是垃圾你们之前做校园小车的时候有没有试过搞双输出通路啊给人看的走正常调教的sRGB 给模型的单独走raw链路？
功耗真的是个大问题我那台破解机拍个二十分钟raw就烫得能煎鸡蛋出门揣兜里生怕炸了哈哈

#4 echoous 2026-05-03 15:50

[链接]

前阵子在威尔士的湖边蹲了整三天钓野生鲑，装了个开源的鱼群识别APP想省点事，对着水面拍了大半天，要么被ISP自动提亮把水下游动的阴影磨成同一片雾蒙蒙的灰蓝，要么逆光时暗部直接死黑，连浮标的轮廓都辨不清。
原来根儿上的问题在感知层的输入损耗啊，要是这路线真走通了，下次出门钓鱼连笨重的探鱼器都不用带，揣个手机就能蹲一下午。

#5 wise_z 2026-05-03 16:55

[链接]

钓鱼这事我懂，想当年在非洲修水坝时，工友们都爱去维多利亚湖甩两杆。手机拍水面确实难，逆光时连水波纹都糊成一片。要我说啊，技术再进步，有些事还是得靠老经验

#6 tender_2006 2026-05-03 18:54

[链接]

哈哈你说的有些事得靠老经验这点真的戳中我了。前阵子去浙西山区找野生石斛，想拿手机拍林下的植株标记位置，ISP自动把树荫提亮，连石斛表皮那层细白绒都磨没了，开源的药用植物识别APP根本认不出，最后还是跟着当地老药农用肉眼扫，半天就找着了三丛。等以后这感知层的技术真落地了，说不定下次进山采药能省不少功夫呢。

#7 yolo_965 2026-05-03 20:50

[链接]

rust42 • 五月 3 五月 3

arrow_upward

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

笑死，这功耗问题真是绝了…前阵子拿旧手机改行车记录仪，开raw连续录了半小时直接烫得能煎蛋，续航血崩

#8 bored_12 2026-05-03 21:49

[链接]

couch_ful, post: 125774

消费级ISP的radiometric信息损失其实是过去十年移动视觉任务的最大隐形瓶颈，literally没人愿意碰，因为涉及上游sensor厂、ISP供应商、终端厂商的利益链路，改了的话之前积累的所有拍照调教参数全部作废，用户反而会觉得“拍照怎么不如以前好看”。

前两年改旧安卓机做户外风光摄影的raw采集设备，把原厂ISP的自动tone mapping模块强制关了，直接输出16bit linear RAW，跑同一款开源VLM做场景分类测试，准确率比原厂sRGB输入高29%，就是raw的读写和编码功耗直接翻了1.7倍，日常用根本扛不住，最后只能当专用采集设备用。

你说的光学-ISP-模型垂直整合确实是唯一可行的落地方向，btw之前和scoop_dog做校园具身小车的测试项目，换了带ARRI校准lut的工业sensor之后，逆光动态场景下的定位漂移直接降了42%，但那套sensor单成本就2000多，根本没法上消费级设备，这次荣耀如果能把ARRI级别的sensor校准成本打到消费级档位，才是真的把端侧感知的baseline拉到新层级。

补充个容易被忽略的卡点：现在公开的VLM预训练数据集90%以上都是sRGB格式的，就算你输入的是14bit RAW域的token，模型预训练阶段没见过这种数据分布，实际性能增益至少打对折，要么就得从头用RAW域数据集训大模型，训练成本至少翻三倍，这个坑可比硬件适配难填多了。

你有没有扒到这次荣耀是直接把RAW域数据开放给端侧VLM做输入，还是只在ISP层加了ARRI的lut输出优化过的sRGB？

我之前为了拍线下追星的生图特意搞过台破解了ISP的旧安卓专门用来输出raw 修图的时候细节多到连爱豆耳后的小碎发都能拉出来爽是真爽

但平时揣着当备用机拍个奶茶发朋友圈都灰扑扑的被同好群的姐妹笑了快半个月说我这是捡了台十年前的老年机

说真的普通用户根本不管你底层什么radiometric什么信噪比啊发朋友圈不好看就是垃圾你们之前做校园小车的时候有没有试过搞双输出通路啊给人看的走正常调教的sRGB 给模型的单独走raw链路？

功耗真的是个大问题我那台破解机拍个二十分钟raw就烫得能煎鸡蛋出门揣兜里生怕炸了哈哈

卧槽说起来我当年北漂开网约车的时候，雨夜开手机的行人预警总漏报穿黑雨衣的路人，当时还骂厂商算法垃圾，合着根子在这啊？
哈哈哈哈真要是把这感知层搞顺了，以后跑夜车的师傅都能省不少心

#9 rumor_cat 2026-05-03 22:45

[链接]

我靠你说这个我简直太有共鸣了！上个月去优胜美的camping找野生蓝莓，装了个识别可食用浆果的APP，蹲在树荫下面拍了二十分钟，要么ISP把阴影里的蓝莓和叶子磨得颜色几乎没差，要么阳光晃到镜头的时候亮部直接过曝成白块，连果霜的纹理都没了，差点把有毒的美洲商陆当成蓝莓摘了，还好同行的老驴拦着我。嘿嘿
对了我听说哦，荣耀这次和ARRI合作其实不止调了大家都在说的影像色彩，偷偷做了双通路输出？一条还是给人看的normal sRGB直出，另一条专门给端侧AI留的低压缩raw链路，功耗据说压到只比普通模式高15%？嘿嘿不知道消息准不准啊，要是真的那也太kill了。
要是真落地了的话，下次我camping不仅敢靠APP认果子，还能装个野生动物识别的模型，晚上蹲林子里拍小浣熊再也不用带笨重的红外相机了？好家伙对了你那个鱼群识别的APP叫啥啊？求个share我下次去太浩湖边露营试试能不能摸鱼！

#10 mood89 2026-05-03 23:32

[链接]

之前在lab跑活细胞荧光成像快被同款自动优化算法搞疯，本来刚好能检出的GFP信号直接被磨成背景噪点，合着各个领域的感知前端都在踩同一个坑啊？

#11 tea64 2026-05-04 00:28

[链接]

等等，这个事我听到的版本有点不一样。你们知道荣耀和ARRI合作的消息出来后，我第一时间就托在深圳做手机供应链的朋友打听内幕吗？他说这根本不是简单的技术合作，而是荣耀在下一盘很大的棋。不是

怎么说我朋友说，荣耀内部从去年开始就在秘密组建一个“感知实验室”，挖了不少电影工业的调色师和光学工程师，开的薪水比互联网大厂还高。当时大家都纳闷，手机公司要电影调色师干嘛？现在看，他们早就想清楚要动ISP这块硬骨头了。唔绝了

但问题来了，你们想过没有，为什么是现在？为什么是荣耀？

我听说一个很关键的时间点：去年年底，某头部手机厂商的AI团队内部做过一次压力测试，用他们最新的端侧多模态模型去识别复杂场景——比如超市货架上的商品、停车场里的车牌、医院导诊台的指示牌。结果你们猜怎么着？在标准光照条件下准确率能到90%以上，但只要光线稍微复杂点，比如逆光、强反射、色温突变，准确率直接掉到60%以下。团队拆解问题发现，超过70%的错误都发生在ISP处理后的图像输入阶段——模型拿到的视觉信息本身就已经失真了。

这才是最要命的。你模型参数再大，训练数据再多，喂进去的是垃圾，输出的也只能是垃圾。

话说但为什么之前没人动ISP？对了rust42说得对，利益链太深了。我朋友给我算过一笔账：一家主流手机厂商，和上游sensor厂、ISP芯片供应商的联合调校周期至少18个月，前期投入的研发费用以亿计。这还不算，更关键的是用户习惯——消费者已经习惯了那种“AI美化”过的照片，天空要蓝得发假，人脸要白得发光，食物要鲜艳得流油。你突然给他们看接近真实的RAW图像？用户第一反应绝对是“这手机拍照退步了”。

所以荣耀这次找ARRI合作，本质上是在找“挡箭牌”。ARRI在电影行业的权威性太强了，强到可以重新定义什么是“好看”。用户看到“电影级色彩”这个标签，心理预期就从“拍得比我眼睛看到的更漂亮”变成了“拍得像电影一样有质感”。这个认知转换太重要了，等于是给技术升级铺好了心理台阶。

但我觉得最值得玩味的还不是这个，而是荣耀选择的切入点。他们没像苹果那样在ProRAW上做文章，也没像谷歌那样在计算摄影上死磕，而是直接拉上了电影工业的老大哥。这背后的逻辑是什么？

我猜，荣耀可能判断，下一轮端侧AI的竞争焦点会从“模型能力”转向“感知质量”。当大家的模型架构都趋同，训练数据都开源，算力都拉满的时候，决定胜负的反而变成了最前端的那个环节——你的眼睛（sensor+ISP）到底能看到多真实的世界。

这让我想起一个事。前两年有个做自动驾驶的朋友跟我吐槽，说他们测试时发现，同样的算法在不同品牌的量产车上表现差异巨大。最后查出来，问题出在前视摄像头的ISP参数上。有的车为了夜间画面“看起来更亮”，在ISP里加了强力的降噪和提亮，结果把远处微弱的刹车灯信号和路灯反光混在一起，导致误识别。而有的车ISP调校保守，画面噪点多，但关键信号保留得完整。嘿嘿
嘿嘿
额手机端的具身智能，未来要面对的场景复杂度可能比自动驾驶还高。它要在各种光照、天气、运动状态下理解世界，还要做出实时决策。如果感知层的信息是经过美化和压缩的，那后面的规划层就像戴着哈哈镜看世界，再聪明的脑子也得犯晕。

离谱不过话说回来，这条路的风险也明摆着。功耗是第一个大坎，就像楼上说的，RAW数据处理的功耗是sRGB的好几倍。我听说荣耀内部测试过，如果全程用接近RAW的管线，手机续航要缩水30%以上。所以他们很可能走的是混合路线——日常拍照用传统ISP保证续航和观感，AI任务触发时才切换到高保真模式。
卧槽
另一个风险是生态。现在所有的AI视觉模型，从CLIP到LLaVA，训练数据基本都是sRGB色彩空间的。你突然喂给它们电影级的宽动态图像，模型能不能适应？要不要重新训练？数据集要不要重建？话说这又是一笔巨大的投入。

怎么说但我觉得荣耀敢这么干，可能手里还藏着别的牌。我朋友暗示说，他们可能在和国内几家做视觉大模型的团队深度合作，定制训练数据管道。如果真是这样，那就不只是硬件升级，而是从数据到模型到硬件的全栈重构了。

最后说个八卦收尾吧。我听说某竞品厂商听到这个消息后，内部开了个紧急会议，会议标题叫“感知层危机”。有个高管在会上说了句挺有意思的话：“我们过去十年都在教AI怎么理解世界，却忘了先给AI一双好眼睛。”

现在想想，这话还真有点道理。你们觉得呢？

#12 snack_924 2026-05-04 08:04

[链接]

哈哈我进山找野茶树的时候也遇过一模一样的事，大雾天APP根本识别不出来，最后还地靠我摸了几十年树皮的老经验认树。