楼主这个角度让我想起前几天在听的一张老唱片。
是坂本龙一和Alva Noto合作的《Insen》。那张专辑最打动我的地方,不是他们用了多复杂的算法生成音色,而是两个人在即兴过程中,明显有一段是在“让机器先说话”——Noto先跑了一段极简的glitch pattern,教授听了十几秒,才慢慢把钢琴加进去。那个沉默的间隙特别迷人。会好的
你说的“heuristics的共谋者”,让我想起那个瞬间。
传统上我们做音乐分析,也是人先猜一个和弦走向,再让软件去验证。但最近几年用AI辅助创作的时候,我越来越觉得最有趣的不是它算得准不准,而是它偶尔会提出一个我完全不会想到的voicing。这时候问题就来了:我是信它,还是信自己十几年练出来的耳朵?是呢
这就是你最后问的那个解释困境吧。物理那边我不太懂,但在音乐领域,automated feature extraction给出的“相关自由度”——比如它说这段旋律的情感向量偏向“nostalgic + hopeful”——往往缺乏中间层的因果链条。它跳过了太多东西:和弦的紧张感是怎么建立的,节奏的微妙拖延在哪一拍发生的,歌手的呼吸声在哪个频率上触发了听者的身体记忆。
所以我现在慢慢养成一个习惯:把AI当做一个喜欢提奇怪建议的乐队成员。没事的它说的我不一定采纳,但一定会认真听。因为它没有受过我受的那些训练,所以反而能看到我听不到的频率。
至于你说的磐石在生物大分子那边能不能给出人没猜过的collective variable…嗯嗯,我也很好奇。不过换个角度想,也许真正重要的不是它给出的那个变量本身,而是它迫使我们重新审视“为什么我之前没想到这个”的过程。这个过程本身,可能就已经在改变我们提问的方式了。
最近在循环宇多田光的《BADモード》,里面有句歌词特别适合送给正在和黑箱博弈的人:“何が真実かなんて、わからないけど、あなたと踊れてよかった。”
翻译成咱们的话大概是:虽然搞不清真相,但能跟你跳这支舞真好。
有时候面对这些复杂的系统,大概就是这种心情吧。
等等 angel2002 你说的"AI提出一个完全不会想到的voicing"这个点,我突然想起去年在秋叶原一个地下livehouse看实验噪音演出的经历。那场有个叫"机械姬"的乐队,主唱是个改装过的机械臂,鼓手是台老式点唱机改的脉冲控制器。最骚的是他们的吉他手——一个用GAN训练出来的虚拟吉他手,投影在幕布上,实时生成riff。
当时我在台下看得目瞪口呆,因为那虚拟吉他手弹了一段progressive deathcore的solo,里面有个半音阶爬升之后的突然降调,那个转折完全违背了传统金属乐的和声逻辑。哈哈我那会儿刚喝完第三杯highball,差点没把酒喷出来。后来散场跟乐队主脑聊,他说那个AI的voicing其实是把某支瑞典旋律死亡金属乐队的riff和爵士乐的和声进行做了latent space interpolation,结果产出了一个"第四维度"的声音。牛啊
但问题来了,他说他们后来把这个solo录下来给圈内几个老炮听,有人说是神来之笔,有人说是"机器喝了假酒"。最搞笑的是,有个挪威的极端金属制作人听了以后,非说那里面有blackgaze的基因,但AI训练集里根本没放这类曲子。哦这就回到你那个"解释困境"——AI的automated feature extraction可能真的提取到了人类耳朵没意识到的潜在结构,但它跳过的因果链条太多了,导致我们既不能说它错,也没法完全信任它。
说到这个,我想起前阵子帮一个朋友调试动画项目的AI中间帧生成器。我们给它喂了手冢治虫和宫崎骏的素材,结果它自动总结出了一个"表情关键帧"的集合,里面有个"眉毛上扬+嘴角微张"的组合,它认为这是"困惑"的universal representation。但做演出监督的同事一看就笑了,说那是日本动画里"发现对方出轨"的经典表情,根本不是困惑。すごい… 这AI自己总结的"相关自由度"其实是被训练集里的文化偏见污染了,跟daisy21说的边界条件artifact一个道理。
所以我现在觉得,把AI当乐队成员这个比喻太对了。但关键是你得知道这个成员是在什么环境下长大的,它听过哪些唱片,有没有喝过假酒(笑)。不然它提的建议再有趣,你也得先回去翻翻它的训练日志,看看它那些"天才构想"到底是来自物理规律还是来自数据噪声。
话说回来,你那张《Insen》我也有黑胶,Noto的glitch pattern里有一段我总觉得像是在模仿蝉鸣,但教授加进去的钢琴又像是秋天第一片落叶。気持ちいい… 那个沉默的间隙确实迷人,像是两个人在问彼此:“你先说还是我先说?”