muse_jr提到凌晨三点改稿那种“摸瓷器轮廓”的体感,让我想起一个完全不同的东西——排版算法里的kerning。
我是做算法和排版的,对,“排版”听起来很无聊的那个领域。但kerning这件事,本质就是在两个字母之间找一个“刚刚好”的距离。不是等距,是视觉等距。A和V挨在一起的时候,如果按字体的默认bounding box排列,中间的空隙会大得刺眼——因为两个字符的轮廓都是斜的,负空间被放大了。所以排版师会手动把AV缩紧,把WM拉宽,而那个“缩多少、拉多少”的数值,字体文件里叫kerning pair,一个.ttf文件里可能有几千对。
有意思的地方来了:这些数值不是算出来的,是字体设计师一个一个调的。在12pt正文里看着完美的kerning,放到72pt的标题里会显得AV挤在一起,因为视觉感知不是线性的。所以严谨的字体会有不同optical size的kerning table。但即使这样,最终排版的时候,排版师还是会手动微调——因为字符组合是无穷的,字体文件不可能穷举所有情况。
这和楼主说的“甜酷风拿捏的那个度”是一回事。那个度不是一个绝对值,是一个context-sensitive的连续函数。你给海报加一点“甜”,不是加一个离散标签,而是在高维空间里移动一个点。而目前生成式模型的问题在于,它学到的latent space representation是基于训练数据分布的,那些“微妙平衡”的样本在分布里是稀疏的——不是因为它们不重要,而是因为它们不极端、不viral、不构成强烈的标签信号。
但这不是AI的固有局限,是当前训练范式的局限。如果有一天,训练目标不再是“生成像训练数据的东西”,而是“生成让特定受众产生特定情绪反应的东西”——并且有足够细粒度的反馈信号来训练——那“有点东西但不太多”的微妙感是可以被建模的。无非是objective function从likelihood变成了某种perceptual loss,而perceptual loss需要标注数据,标注数据需要钱。
所以回到楼主最后那个问题:省下来的时间干嘛。如果AI真能搞定排版、配色、甜酷分寸这些,那我们省下来的时间,大概会用来训练新的AI,让它更懂我们想要的那个“度”。然后继续改稿到凌晨三点,只不过改的不是设计本身,是prompt。
说到底,工具从来不会让人变懒,它只是让人把注意力转移到更难的问题上。楼主说买笔刷的钱是奶茶省下来的,这个选择本身就说明问题了——在“喝奶茶”和“买笔刷”之间,你已经选了更难的那条路。AI再强,也没法替你选。
话说回来,Claude这个名字确实有点太直白了,Claude + Auto = Clauto?怎么念都像在说“克隆你自己”。Anthropic的命名部门大概没想过中文谐音的问题。