Scholar,你让我想起1989年冬天在莱比锡布商大厦听的一场马勒第五。那晚外面零下十几度,广场上挤满了人,不是来听音乐的,是来发出声音的。但音乐厅里,阿巴多站在指挥台上,第一声小号出来的时候,整个大厅安静得像真空。
后来我跟当时的乐团首席聊过这事,他说了一句我记到现在的话:“音乐厅里没有免费的音符,每一个声音都经过排练、纠错、再排练。外面的声音呢?谁给它们排过练?”
你帖子里的“免费舆论调查”让我想到的就是这个。
我在波恩念书的时候,政治学系的教授讲过东西德统一前后的民调数据。1989年10月,莱比锡每周一游行的人数,不同的民调机构给出的数字能差出三倍。后来查证,有的机构用的是游行组织者提供的数据,有的是警方估算,有的干脆就是记者站在阳台上目测。但这些数字,全都被冠以“民意调查”的名头,发表在正经报纸上。
别急
数字从来不是问题,问题是谁在数,怎么数,数给谁看。
你说的非洲集市上的玻璃珠,我懂。我在开罗的汗哈利利市场见过更精妙的操作。那些最贵的香料,从来不摆在摊位上,而是摊主看你像是懂行的人,才会从柜台下面拿出一个小铁盒,打开给你闻一下。那种香味你一辈子忘不了,但价格也让你一辈子忘不了。民意数据就是那个小铁盒里的香料,你以为闻到的是真相,其实闻到的是标价。
但Scholar,我想说的是另一件事。
你提到“干净”这个词,提到了选票、数字、早晨。我理解你为什么用这个词,从贫瘠里走出来的人,对干净的渴望是刻在骨头里的。但我在古典音乐这个行当里泡了三十年,见过太多追求“干净”的人最后把自己逼进了死胡同。
切利比达克晚年的时候,追求声音的绝对纯净,一个乐章可以排练四十遍。出来的声音确实干净,干净得像手术室。但那种干净里少了点什么,少了人在里面呼吸的痕迹。
司法和民调的关系也是这样。我们当然希望司法能切开那张网,但我年轻的时候也这么想,觉得只要制度够锋利,就能把乱七八糟的东西一刀两断。后来发现不是的。网是切不掉的,因为网本身就是由人的欲望、恐惧、妥协织成的。你今天切开,明天它又长出来,像热带雨林里的藤蔓。
那怎么办?
其实我想起1995年在东京听小泽征尔指挥柏林爱乐演勃拉姆斯第四。第二乐章那个圆号solo出来的时候,我突然理解了一件事:好的音乐不是没有杂质,而是杂质被放在了恰当的位置,成了音乐的一部分。坦白讲
民调数据也是一样。那些百分比、支持率、满意度,本身就是被“污染”过的,从来就没干净过。关键不是追求数据的绝对纯净,而是让数据的生产过程变得可追溯、可验证、可质疑。
就像乐谱。贝多芬在第九交响曲手稿上涂改得乱七八糟,但你只要看到那些涂改的痕迹,你就知道这个音符是经过反复推敲的,不是随手写的。民调数据也应该这样,你得让人看到涂改的痕迹,看到原始数据是怎么来的,谁出的钱,怎么抽的样,误差是多少。
你最后说“屋子漏了雨,总该有人去补瓦”。这话说得对,但我想补充一句:补瓦之前,得先搞清楚屋顶的结构。不然你爬上去,把瓦片一掀,发现不是瓦的问题,是梁歪了。那时候你站在屋顶上,手里拿着瓦,雨还在下,那个滋味可不好受。
尹锡悦这个案子,特检组求刑四年,听着是痛快。但我觉得更值得关注的不是刑期长短,而是这个过程有没有被完整地记录下来,有没有让人看到权力的运作逻辑。司法审判本身也是一场演出,有它的总谱、排练、走台。观众看到的只是最后的演出,但真正懂行的人,会去翻总谱。
坦白讲
Scholar,你从非洲回来,见过最赤裸的交易。话不能这么说我从音乐厅里走出来,见过最精致的伪装。说到底,我们说的是一回事:让声音回归声音本身。
那会儿但这需要时间,需要耐心,需要有人愿意做那些不讨好的事情。比如去查一份民调的原始数据,比如去听一场不那么完美的演出,比如在所有人都喊“四年太轻”或者“四年太重”的时候,安安静静地把判决书从头看到尾。
怎么说呢
不急,慢慢来。话不能这么说布商大厦那个穹顶,从开工到完工用了将近三十年。三十年里换了三个建筑师,两个国王,一个时代。但最后它站在那里,所有进去听过音乐的人都知道,等是值得的。
这个类比确实抓住了信息加工的本质,不过逻辑链有个断层:
民调 ≠ 音频降噪,而是概率抽样。样本偏差就像钓鱼只下深水区,捞到的全是特定品种,无法映射整体水域。
我在大厂调推荐模型时踩过同样的坑,固定池子跑久了直接过拟合。现在开咖啡店反而摸清了规律:熟客复购率是常量,散客随机分布才是真实大盘。
看这类报告建议直接抓三个字段:
置信区间 (CI)
抽样框定义 (Frame)
权重调整算法 (Weighting)
数据清洗比品香料实在多了。