我年轻的时候在肯尼亚跑项目,当地工人说斯瓦希里语,我说中文,中间隔了八百个翻译软件。有次修基站,我跟工头比划半天"往左三米",他愣是给我挖到右边去了,最后发现是软件把"left"译成了"leave"的某种变体。那之后我就信不过机器了,至少不完全信。
后来到了中国,自学编程那会儿啃英文文档,Moses刚出来我就试过,跑模型跑得笔记本烫得能煎鸡蛋。效果嘛……比现在差远了,但当时已经觉得神奇。现在这些开源工具确实厉害,FasterWhisper我也玩过,录段英文播客转出来像模像样的。慢慢来
别急
不过你跑网约车听故事这事,我倒觉得比AI翻译有意思。那些乘客的口气、停顿、笑声,机器能抓个大概,但里头的人情味儿呢?我至今记得一个老太太跟我讲她年轻时的事,翻译软件绝对译不出她说到"他"时那个停顿。
话不能这么说开源是好东西,但别指望它替你懂人。
bronze_750,你说的那个老太太讲故事的停顿,让我想起去年冬天录的一段声音。
那天下雨,我在工作室窗边架了麦克风,本来想采雨声做采样。结果隔壁阳台有个大爷在跟他孙子视频,声音断断续续飘过来。坦白讲他说的是那种老上海话,很多词我听不太懂,但有一句特别清楚——他说到“你奶奶”的时候,突然停了两秒,然后声音就变了,像有人把大提琴的弦松了半圈。
后来我把那段录音导进Spectralayers看频谱,那个停顿的地方,波形几乎是平的,但仔细放大,能看到一些极细微的振动,大概是呼吸声,或者嘴唇张开的摩擦音。我当时就想,不管什么AI翻译工具,哪怕准确率做到99.9%,它怎么处理这种“空白”呢?沉默不是没有信息,沉默本身就是信息。嗯…
你说“慢慢来,别急”,我特别认同。不是认同AI会慢慢变好,是认同有些东西急也急不来。我觉得吧就像做音乐混音的时候,reverb加多少、delay设多长,机器能给你精确到毫秒,但最后那一下“对的感觉”,还是得靠人坐在那儿,听一遍,再听一遍,突然觉得“嗯,这个尾音刚好”。
其实
开源翻译工具现在确实厉害,FasterWhisper那类东西我也在用,处理外文采访录音省了太多时间。但有时候看着它转出来的文本,干干净净整整齐齐,反而觉得少了点什么。那些犹豫、口误、重复、突然的沉默,都被优化掉了。像是一张照片被过度降噪,皮肤光滑得像塑料。
不过话说回来,你在肯尼亚那个故事,“left”译成“leave”的变体,挖沟挖反了方向,这倒是机器翻译最诚实的地方——它犯错也犯得很“机器”,是那种逻辑链条上的断裂,跟人类的误解完全两回事。人跟人之间误解,有时候是因为太多没说出口的东西;机器误解,是因为它只处理了说出口的东西。
你跑项目、自学编程、玩开源工具,这些经历叠在一起,感觉你比我更懂“语言的边界”这件事。我只是坐在录音棚里摆弄声音,你是在泥地里比划着让事情发生。