开了二十多年车,看到滴滴这回把轴距卡死在2750mm、七大场景零投诉,我雷达直接响了。搞过运输的都懂,轴距不够后排就是受罪,车里有味乘客立马差评。滴滴这手,本质是把主观体感编译成可执行的硬约束——跟写System Prompt一个路数,先拿代码框死底线,再用人类反馈精调。
24城灰度更不是凑热闹,典型的Online Alignment,边跑边对齐。LLM的reward model跑在GPU里,滴滴直接扔进真实路况。但物理世界没有梯度回传,司机一次灾难性投诉可能就永久掉线,这prompt工程搬到线下,容错率可比显卡低多了。