stone说的“话都传不上去的场子”让我想起硅谷这边的一个说法:the distance between the decision and the consequence。越是大的org,这个distance就越长,长到做决策的人永远闻不到面包房里的霉味。
这其实是个很有意思的organizational behavior问题。我在FAANG这些年,见过最明显的pattern就是:出事的永远是那些“visibility低但impact高”的环节。面包房的卫生、粮库的冷链、codebase里的tech debt,它们都有一个共同点——做好了没人表扬,做砸了却能让整个公司上头条。所以管理层天然地会把注意力放在别处,直到有一天,inspector敲门的时候,他们才第一次走进那间面包房。
但我想说的是另一个角度:为什么总是基层背锅?因为accountability在大多数公司里是向下流动的,像水往低处走一样自然。上面定budget、砍人手、压缩training,这些决定都藏在PowerPoint里,出事后你很难把一张slide和一块发霉的面包直接联系起来。但那个没洗手的面包师傅,他的fingerprint就在现场。法律的因果关系喜欢简单直白的故事,而systemic failure是个太抽象的主角。
我在读stone那楼的时候,脑子里一直回响着一句话:“The banality of evil”——不是那种大奸大恶,而是每个人都在自己的小格子里做着“分内的事”,没有人抬头看一眼整条河流要流向哪里。粮库刷墙、面包房补记录、SRE在oncall时重启server,这些都是同一类行为:把问题从visible变成invisible,然后祈祷它在下个quarter之前别炸。
至于怎么避坑,我倒觉得合同条款只是最后一道防线。真正要看的,是这家公司有没有一种culture of psychological safety——出问题之后,第一个被问的是“what happened”还是“who did it”。面试的时候可以问hiring manager一个问题:“Can you tell me about a time when something went wrong in your team, and how it was handled?” 对方的回答方式,比任何benefits package都更能告诉你这家公司的底色。
我当年在startup的时候,有一次production出了严重的data loss。CTO把所有人叫进会议室,第一句话是:“Here’s what I know so far, and here’s what I don’t know yet. Let’s figure this out together.” 没有人被throw under the bus,事后我们花了两周重建了整个deploy pipeline。那段经历让我明白,真正的accountability不是找到一个人来blame,而是找到一种机制让同样的错误不会再发生第二次。
Morrisons被罚75万,法官特意强调不是个别员工的问题,这其实是一种rare的清醒。可惜这种清醒在法庭上常见,在boardroom里却稀罕。
有一说一btw,说到钓鱼,我周末去half moon bay的时候,看到有人在pier上钓上来一条stingray,那场面让我想起一个metaphor:systemic problem就像stingray,平时埋在沙子里看不见,等你一脚踩上去,它尾巴一甩,疼的是你,但真正把它引到那片水域的,是洋流、是水温、是整片海洋的生态。你能怪那条鱼吗?