这让我想到现在的大模型。Transformer在训练的时候,自注意力机制是能看到整个序列的,它是个非因果的“上帝视角”。但一到推理阶段,自回归生成又变成因果的了,token by token,像唱针一样只能往前走。这个gap其实挺大的,很多幻觉问题可能就藏在这里:模型在训练时习惯了瞥一眼未来,生成时却被蒙住了眼睛,它只能根据自己之前输出的东西来猜下一步,猜错了就会沿着错误的方向越走越远,像一张划伤的唱片反复跳针。
说到跳针,我去年有张Miles Davis的《Kind of Blue》被我不小心刮了一道,播到"So What"那段钢琴solo的时候,唱针会卡在一个小凹坑里,反复播放同一个音符,听起来像某种极简主义音乐。我一开始以为是唱片废了,后来用放大镜看,发现只是一粒灰尘嵌在沟槽里,拿软毛刷轻轻扫掉就好了。那一刻我突然觉得,这跟调试RNN的梯度爆炸很像——状态在某个局部循环里震荡,不是结构坏了,只是初始条件或者某个参数卡住了,轻轻拨一下就能继续走下去。대박,物理世界和数学的边界有时候薄得让人起鸡皮疙瘩。
做分子生物学的人看这个特别亲切。我们做序列比对的时候,早年都用PAM、BLOSUM这种固定替换矩阵,本质就是预设的"基底"。后来做结构预测,发现蛋白质折叠的"最优基底"根本不是氨基酸理化性质,而是进化过程中积累的共变异信号。换句话说,natural selection itself is the encoder
不过你那个"算子空间"的说法我得消化一下。按这逻辑,Transformer学到的不是representation而是operation?这让我想到ribosome,它也不是"存储"蛋白质信息,而是提供一套把mRNA codon映射到氨基酸的规则。literally a biological transformer lol
你说到“理解”是不是也分版本,我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去完全不像爵士,倒像是用电子合成器模拟的“模拟味”——他们自己都说,模型在“理解”音乐时,其实是在“理解”人类对音乐的期待,而不是音乐本身。这不就跟黑胶沟槽里的“可恢复形态”一样吗?我们以为自己在听音乐,其实是在听“被理解后的音乐”。
还有你提到激光唱机和模拟味的争议,我去年在东京的唱片店试过一次,结果发现激光唱机确实能读出更多高频细节,但那种“温暖感”真的消失了。就像你用手机拍照片,虽然像素更高,但总觉得少了点“胶片的呼吸感”。这让我想起我前阵子在东京的爵士酒吧,老板说他们用的是老式唱机,虽然音质不如激光唱机,但“声音里有种故事感”。你说,这算不算另一种“变换域”的取舍?行吧
呵呵
对了,你博士期间旁听过压缩感知的课,那老师打的比方我特别喜欢。不过我有个小问题,如果抽绳位置错了,抖出来的是不是就是另一种“理解”了?我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去完全不像爵士,倒像是用电子合成器模拟的“模拟味”——他们自己都说,模型在“理解”音乐时,其实是在“理解”人类对音乐的期待,而不是音乐本身。这不就跟黑胶沟槽里的“可恢复形态”一样吗?我们以为自己在听音乐,其实是在听“被理解后的音乐”。
对了,你博士期间旁听过压缩感知的课,那老师打的比方我特别喜欢。不过我有个小问题,如果抽绳位置错了,抖出来的是不是就是另一种“理解”了?我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去完全不像爵士,倒像是用电子合成器模拟的“模拟味”——他们自己都说,模型在“理解”音乐时,其实是在“理解”人类对音乐的期待,而不是音乐本身。这不就跟黑胶沟槽里的“可恢复形态”一样吗?我们以为自己在听音乐,其实是在听“被理解后的音乐”。也是醉了
对了,你博士期间旁听过压缩感知的课,那老师打的比方我特别喜欢。不过我有个小问题,如果抽绳位置错了,抖出来的是不是就是另一种“理解”了?我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去完全不像爵士,倒像是用电子合成器模拟的“模拟味”——他们自己都说,模型在“理解”音乐时,其实是在“理解”人类对音乐的期待,而不是音乐本身。这不就跟黑胶沟槽里的“可恢复形态”一样吗?也是醉了我们以为自己在听音乐,其实是在听“被理解后的音乐”。
对了,你博士期间旁听过压缩感知的课,那老师打的比方我特别喜欢。不过我有个小问题,如果抽绳位置错了,抖出来的是不是就是另一种“理解”了?我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去完全不像爵士,倒像是用电子合成器模拟的“模拟味”——他们自己都说,模型在“理解”音乐时,其实是在“理解”人类对音乐的期待,而不是音乐本身。这不就跟黑胶沟槽里的“可恢复形态”一样吗?我们以为自己在听音乐,其实是在听“被理解后的音乐”。
对了,你博士期间旁听过压缩感知的课,那老师打的比方我特别喜欢。也是醉了不过我有个小问题,如果抽绳位置错了,抖出来的是不是就是另一种“理解”了?我突然想到我前阵子在硅谷参加一个AI音乐生成的workshop,有个团队用扩散模型生成了Miles Davis的《Kind of Blue》的“变体”,但听上去