9 min read

偽學術台︰數據有問題都分幾種嘅,唔一定關統計事

FB專頁「雲吞博士的語言藝術」(潘永堅博士)處理數據時犯低級錯誤都算,仲要唔認錯。
偽學術台︰數據有問題都分幾種嘅,唔一定關統計事
The PHD Movie 2 “Piled Higher and Deeper: Still in Grad School” 截圖(幾好睇,睇咗第一集先啦

唔知咩事可以睇咗呢篇先︰

Share過雲呑博士篇〈殺人警察〉嘅同我入嚟,炒晒車喇你哋!
FB專頁「雲呑博士的語言藝術 」(潘永堅博士)宣稱自殺數字增加有可疑,但佢啲數據唔可靠,亦無睇清楚就寫文。

話說陳婉容​貼咗張cap圖(但因為佢費事污染自己個page而限時刪文,我都唔貼了),有人批評佢係 「識stat曬命」,嗰位仁兄仲學咗雲吞博士個講法,將件事講成係點詮釋統計數據嘅問題,覺得陳婉容唔應該「開大喇叭唱通街連日追殺」(嗰個其實係我)。

好不幸,我唔識stat都可以講得出雲吞博士(aka 潘永堅博士)錯乜,咁我唯有簡單解釋下。講明先,好基本㗎咋,學術界朋友咪笑我,笑雲吞博士好了。至於寫嚟有乜用?佢會唔會認錯?無用㗎,咁唔通警察亂咁打人唔使理咩,記錄呢家嘢,留低遲下實有用嘅。(同埋呢排咁忙,咪當畀我發洩下囉。)

整理咗個時間線,放喺最底(下文提到嘅文都可以去時間線搵返),有需要可以去望一望先。

由「唔同數據」到「用錯數據」

今次雲吞博士嘅問題最少涉及三個方面︰

一,唔同數據,得出唔同結果;
二,數據本身有錯;
三,作者用錯數據。

我用例子答你。

雲吞博士發文當日,朱孝文陳婉容用「2019香港自殺資料統計」(佢哋9月初有搵過相關資料而見到,亦問咗負責整理嘅人點收集資料,覺得可靠)再次分析,得出相反結論。呢個就係上面嘅第一點。當時陳婉容無話雲吞博士錯(完全稱唔上咩「追殺」),只係畀大家比較下,亦提出關於自殺率變動可以考慮其他方面,同埋數據本身無辦法話畀我哋知有無「被自殺」。

同一晚,科豆話我知雲吞博士用啲資料有錯,佢第二日出嘅文章亦指出雲吞博士關於6月自殺資料嘅錯。我喺當日(18號)對晒雲吞博士108項資料,發現17項有錯。呢樣係第二點。

與此同時,我發現雲吞博士份資料有部分註明無死到或工業意外嘅個案,都俾雲吞博士當成自殺死亡個案去計數。另外佢話資料包括615太古廣場離世嘅梁先生,但實際上無。令人懷疑佢其實無仔細睇過份資料就寫文。呢個係第三點。

問題越挖越多

如果只係得第一點,用唔同數據得出唔同結果,咁咪首先唔好咬定邊個啱邊個錯先,睇下雙方分析有無問題、數據有咩差異囉。可能係收集方法有別,又可能大家都啱一半呢super,越問落去越知得多,但唔好一口咬定先 — — 即係,雲吞博士本身都唔應該寫到咁實牙實齒。

落到去第二點問題更大。如果係登喺學術期刊,恐怕都需要撤回論文,除非錯誤好輕微可以重新分析而且得出相同結論,不過雲吞博士嘅資料講緊最少15%有錯,真係難啲,仲未計漏咗咁多個。

或者你可以話,咁而家佢喺Facebook寫文啫,又唔係搞學術,唔使咁嚴格啦。我開頭都係咁諗,諗住佢可能都係信錯咗佢位「學術界朋友」啫。

只係我對多陣就發現,有啲位明顯係雲吞博士自己錯,無查清楚資料就寫落去 — — 大佬份資料係你擺出嚟㗎,咁都錯,仲求其過香港警察,好意思話自己公開數據扮畀人判斷?

大家可以睇到,時序上,發現嘅問題可以話係越嚟越嚴重。不過最嚴重呢樣,就唔關數據事,而係學術操守 — — 唔認錯。

好啦,人誰無過呢,嗰陣我當係雲吞博士一時大意,所以提出佢應該認錯撤回文章、向大眾解釋錯喺邊,都真係非常客氣(我而家就真係唔客氣喇)。到呢個時候,我都認為佢出於好意只係唔小心犯錯,唔係欺世盜名。如果係學術論文,期刊一定撤咗了。(不過如果呢篇嘢係學術論文,有得登期刊都係奇跡,predatory journal我諗得嘅。)

學乜嘢術?

認真對完一大輪,再話你知有咩錯,簡直係免費提供服務,如果學術前學術後,多謝都嚟唔切啦。不過偏偏雲吞博士係搞語言藝術的(我睇佢個page名斷估咋,認真過佢睇自殺數據啦應該),兜嚟兜去,兜到連羅蘭巴特都出埋,話咩作者已死(咁用㗎咩,數據又死咗未呀),總之就係唔肯認錯。

仲有一件有趣嘅事係,喺雲吞博士出嚟扮回應之後,佢個post有人留言表示自己唔係咩「學術界朋友」,原來呢位Lo KinPong先生喺9月9號整理咗612後嘅自殺案,但9月13號佢已經修正,叫人去參考「2019香港自殺資料統計」。咁唔知點解,9月17號雲吞博士先攞返呢份數據出嚟講(斷估唔使分析幾日?),而且變晒做英文,可能佢個「學術界朋友」只係負責翻譯而雲吞博士無問清楚啦。點都好啦,求其唔認真就梗㗎喇。

雲吞博士的語言藝術 Vinton’s Art of Language 帖文留言截圖

再強調一次,佢篇文勁多人share,寫到咁實牙實齒,又強調學術(個page都係叫博士啦),係會誤導好多人以為證據確鑿(潘生你唔好之後縮返啊,你再睇一次自己寫乜先),例如浸大英國語言文學系教授黄良喜就話 “Wow! This is a very convincing analysis to me.”,哥廷根大學民俗學博士陳云根亦將雲吞博士篇文當成「統計學家在這段日子的自殺案件統計及個案考察」,話「發現極有規律地極不尋常」喎。(頭盔︰咁啱見到又係public post先放出嚟咋,唔係針對佢兩個。)[a][b] 讀過下書讀到博士都可能會信啦,你話一般人係咪更加容易唔小心就信咗你,係咪要負返責任先?(當然又唔完全關學歷事嘅其實。)

錯到咁離譜,話返畀人知對唔住我錯咗,好合理啫,使乜搞到好似警察驚咗獨立調查委員會咁(其實我覺得唔使驚,都無人會信有用)。不過想做KOL又唔同玩法嘅我估。

文章最後好似要加返句歌詞扮下嘢,我都係加呢句好了︰

~~點解可以唔道歉?~~

時間線︰

  • 9月9日,Lo KinPong 先生整理咗612至9月9日嘅自殺案數據,但喺13號已經修改帖文,表示有一班有心人整理嘅數據更齊全、分析更到位 — — 就係「2019香港自殺資料統計」 — — 建議大家去睇。[1]
  • 9月17日,雲吞博士引用上述數據,話係「學術界的朋友」整合,然後提出佢嘅分析。[2](但整理數據嘅 Lo KinPong 表示佢唔係咩「學術界的朋友」。[3])
  • 9月17日下晝,朱孝文同陳婉容用「2019香港自殺資料統計」嘅數據分析,得出相反結論。 [4][5]
  • 9月17日晚,科豆抽查發現雲吞博士用嘅資料都有幾個錯,決定用「2019香港自殺資料統計」,分析結果同朱孝文一致。[6]
  • 9月18日,我對晒雲吞博士用嗰份數據108項,發現17項錯處,而且同「2019香港自殺資料統計」比較,前者6/7月明顯遺漏更多自殺案件。提出佢應該承認錯誤、撤回文章,同埋向大眾解釋返邊度有錯。
  • 9月18日較早時段,雲吞博士出篇文嘅英文版,夜晚有人留言指出數據有錯,雲吞博士講成係詮釋問題。[8]
  • 9月20日,陳婉容發文解釋點解雲吞博士應該撤回文章。[9]
  • 9月21日,雲吞博士發文回應,但無承認任何錯誤,話咩「學術討論本來就是多元的熱鬧的」、「蒐集數據的方法,對數據的詮釋分析,各家各異」。[10]

註︰

[a] https://www.facebook.com/lianhee/posts/10214457844015735
[b] https://www.facebook.com/wan.chin.75/posts/10157416851322225

[1] https://www.facebook.com/lo.kinpong.3/posts/10219797941159919
[2] https://www.facebook.com/permalink.php?story_fbid=916417032055262&id=857598264603806
[3] https://www.facebook.com/permalink.php?story_fbid=919566245073674&id=857598264603806&comment_id=920345324995766
[4] https://www.facebook.com/lanstonAI/photos/a.3048046398545117/3048045791878511/
[5] https://www.facebook.com/sherrychanyy/posts/2757839657583486
[6] https://www.facebook.com/ScientificPapa/photos/a.355653458156654/1132968870425105/
[7] https://www.thenewslens.com/article/124869
[8] https://www.facebook.com/permalink.php?story_fbid=917116158652016&id=857598264603806
[9] https://www.facebook.com/sherrychanyy/posts/2763173607050091
[10] https://www.facebook.com/permalink.php?story_fbid=919566245073674&id=857598264603806

雲吞博士的語言藝術 Vinton’s Art of Language 帖文留言截圖

(原刊於Medium