你也迷失在數據間了嗎?

上星期看到一則報導,請參考下圖,因為不希望這錯誤的資料繼續害人,請容許我把來源用比較隱晦的方式來表達。

螢幕快照 2017-03-26 下午5.19.52
取自此處 https://goo.gl/qzCw5N

這篇報導的註解是,失智症太沈重,因為失智症患者會比較長壽。看到的第一個當下,我是傻眼… 因為根據這麼多年對於失智症的了解,一直都知道失智症從開始到臨終,大概是8-11年不等,要看每個人的狀況,以及是在哪個階段被診斷出來的。這所謂大數據資料分析的結果,很顯然有問題。

綜觀幾個國內外的資料來源,也證實了,我並不是孤單的:

  • 美國阿茲海默症協會 (Alzheimer’s Association):阿茲海默氏症患者通常活4-8年,但也有一些人活超過20年。(資料來源
  • 梅約診所 (Mayo Clinic) 網站:阿茲海默氏症患者通常被診斷後可以活8-10年,但也有一些人活超過20年。(資料來源
  • 台大醫院網站:病發後餘年約8-10年,但也有一些活10-15年的例子,但個別差異很大。

少數根據年齡分群來看失智症患者平均餘命的研究,也都發現平均餘命是在12年以下,且越老罹患失智症者,則確診後的餘命越短… (參考資料一 參考資料二)。

所以,現在問題來了,那個報導中的大數據資料從哪來的?為什麼會和諸多的研究結果有這麼多的出入?我們無從得知… 對這個領域陌生的民眾,怎麼會知道這數據有問題呢?

這只是個例子,在生活中,我們有太多機會被數據玩弄了,就舉例來說,全台灣平均每個人有一顆睪丸。台灣的男女比例是接近1,所以這平均值基本上沒有錯;如果你覺得很荒謬,那下次再看待其他平均值資料的時候,你是否也該有同樣的警覺呢?

在這大數據正夯的年代,我們已經真的不知道是被數據玩弄,還是在玩弄數據了。幾年前,學術界在檢討所謂統計顯著性這件事性,無疑也是位這件事情在做反省。數字很迷人,當量大的時候,數據間很容易就會有關係,但底有多少的關係是真實有意義的,有哪些又只是巧合呢?

很多事情只是巧合,但人的大腦卻傾向認為有所謂的因果關係 – 取自「大腦有問題」

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s