倖存者偏差 / 我剛工作就出醜,只因不懂統計學

倖存者偏差 / 我剛工作就出醜,只因不懂統計學

我剛工作就出醜,只因不懂統計學

從一件糗事說起

話說,當年我剛畢業開始工作的時候,總覺得作為一名軟體工程師,只要做好程式設計工作就萬事大吉了。可是,我工作出的第一個大醜,卻不是因為程式設計技術不行,而是不懂統計學鬧出的笑話。下面,我就把這個故事分享給你。

那時,我剛剛畢業。進入矽谷工作兩個月後,我人生中第一個重大專案終於完成了。這天傍晚下班前,我們決定向全球發布這個新功能。新功能上線後,效果真的非常不錯,我們可以清晰地看到各項指標瘋狂上漲,短短幾個小時,就已經達到了我們對這個季度的業務預期。於是,我就開心得早早回家慶祝了。

第二天早上到公司,我發現,我們團隊辦公桌旁邊牆上掛的數據大螢幕居然壞了—因為數據太好,讓顯示系統崩潰了。我暗自笑笑,悠閒地去吃了個全套英式早餐,之後,優雅地邊喝茶邊發了內部捷報—新產品上線,12 小時打破歷史紀錄。
然後,就是各種人故意路過我的辦公桌,給我打招呼恭喜。畢竟,一個剛到職的畢業生,能在兩個月內能取得這樣的成績十分難得。很快,到下班時間了,當我即將歡快地唱起《難忘今宵》並闔上電腦離開的時候,突然,產品經理給我發訊息—「又是祝賀的消息吧?」我想,「哎,年少成名真的好煩。」——可我定睛一看,這是一個新建的工作群組,群組名稱是「事故調查」,我一下就懵了。

打開群聊一看:「Han,你的產品,出事了。」我的第一個反應就是:啥?不對,不可能,我不信!因為,我可是監測了一天回測數據,全都正常啊!我當然不可能就這樣接受這個消息,畢竟,捷報我都發了,現在有問題,真的是啪啪打臉啊!
但是,事實果然如此:客服部門收到大量用戶投訴,一大部分用戶的App 無法正常使用了。透過事故運行紀錄分析,確實是因為我寫的那部分程式碼出了問題。我只能緊急地把新產品下線,灰溜溜地低下了頭。這時,我再看同事的目光,隱隱覺得他們的眼神裡流露著嘲笑和諷刺。

哎,工作以後第一次炫耀,就這麼失敗了,以出醜告終。

出了事,就要調查原因。可是,我自己搞了好幾天都沒什麼進展。因為真的是,所有傳回來的數據都表示,用戶沒有任何異常呀!這幾乎是一個悖論:數據顯示沒問題,但是用戶就是會投訴有問題。
肯定是哪裡出錯了。

直到有一天我去公司的咖啡廳,和同事Tommy 閒聊。他問起我的近況,我就說了這件事。之後,Tommy 語重心長地跟我說:「Han,你聽說過倖存者偏差(survivorship bias)嗎?」

倖存者偏差

Tommy 跟我說,在第二次世界大戰的時候,英國空軍為了減少傷亡,分析了所有飛回來的戰鬥機的中彈統計,如下圖所示。

倖存者偏差 / 我剛工作就出醜,只因不懂統計學

人們發現,安全回來的戰鬥機,都是機翼上彈痕多,而機頭和機身的彈痕分布都不明顯。因此,大家普遍都覺得,為了加固飛機,應該重點關注機翼位置。這時,一個統計學教授亞伯拉罕.沃爾德(Abraham Wald)卻說,不對,最應該加強的部分,不應該是有很多彈痕的地方,而應該是機頭和機身。因為一旦機頭和機身中彈,整個飛機會損壞嚴重而被擊落,根本就沒有機會飛回來。

聽完之後,我靈光乍現,趕緊回去重新調查我的事故。

最終發現,原來,只有對於那些沒問題的用戶,產品數據才會被成功傳回來,系統才有記錄。而對於那些App有問題的用戶,因為App會直接閃退,相關的數據回傳程式碼不會運行,因此我們後台根本沒有得到任何回傳數據!其實,它們就是那些被提前擊落的戰機啊!所以,這才造成了後端檢測數據一切正常的假象。

「倖存者偏差」是一個典型的統計學「統計偏差」概念,也是一個可以在生活中廣泛應用的原理,也可以被理解成「沉默的大多數」理論。其實質就是,在進行統計分析的時候,人們忽略了樣本的隨機性和全面性而造成了錯誤。因為人們只對部分人做了分析,從而得出了錯誤的結論。而在真實生活和工作中,往往就是因為一部分人沒有發聲,或者不能發聲,從而讓倖存者偏差更容易產生,我們一定要多多注意。

例如「讀書無用論」經常充斥在我們耳邊。經常有人會說「讀書有什麼用,你看誰誰誰,連小學都沒畢業,不還是成功了。」其實,絕大部分失敗者因為並沒有被媒體報導,而自己又沒有能力發聲被公眾注意,就等於被迫選擇了沉默,最終大眾並沒有辦法知道。如果能夠得到完整數據,並且計算確切的比例,我們可以發現,那些獲得高學歷的人,其實成功的機率更大。

還有,「飛機太不安全了,一天天總出事故」也是錯的。飛機是目前人類發明的最安全的交通工具,只不過是因為大部分空難都會被報導,讓你知道了,所以你覺得飛機出事的機率很高。而其他的如汽車等交通工具的事故,大多數並沒有被報導,因此就有了誤解。

另外,身邊還會經常出現這種現象:一部電影在影評網站上得分很差,可是周圍朋友對其評價還不錯。其實這同上面說的是一樣的道理。因為覺得電影「還能看得過去」的人,並不會在影評網站發表評論,反而是那些覺得電影很差的人,會怒氣沖沖地到網站上打上很低的分數。

再比如,「愛笑的女生運氣都不會差」,其實,運氣差的話根本笑不出來。還有,「為什麼爸媽不挑食」,因為他們在買菜的時候,都已經挑過了。

應用實戰

倖存者偏差在互聯網工作中應用非常廣泛。那麼怎麼避免倖存者偏差呢?首先,你的腦海中要時刻記著這個概念,千萬不要輕易地掉進統計偏差的陷阱。如果你是一位設計師或者產品經理,經常在產品後台收到用戶對一些功能提出的改進建議。那麼,你要不要立刻就聽他們的呢?其實,那些對產品滿意的用戶,都已經選擇了沉默。這時,你就要看看,這些「沉默的」人,是不是大多數了。你只需看看實際的整體用戶數據,計算一下,到底有多少比例的用戶在抱怨,你很快就會有答案。

再比如,你是一名新媒體小編,經營著一個臉書粉絲專頁。有時候,對於閱讀量還不錯的文章,卻發現收到了一些負面評價。這時,你可能會有點失望。我在寫我的原創公眾號「涵的硅谷成長筆記」時,一開始也常會有這個困擾。但後來我發現,文章閱讀量高,本來就已經說明有很多人認可你的觀點並且轉發了,那些寥寥無幾的負面評價,真的只是少數,不能代表全部讀者的行為。你應該讓自己的目光,多多注意到那些喜愛你的人身上。

在我們涉及那些要對「很多人」進行統計分析的時候,想想統計的樣本是不是「完全」且沒有「偏差」,是不是有某些樣本不能或者很難進入統計。只有做到這樣,我們才能有效避免偏差對工作帶來的影響。

本文摘錄自《矽谷思維》,寶鼎出版。