近況|「端」數據

(This is a repost from “P话” http://bit.ly/1OiVjaa)

P話停更許久,很多朋友來關心過。感覺是時候報報近況。

那現在我在做什麼?——我是記者。在「端傳媒」。

說時髦一點,是「數據記者」。唬人一點,也可以自稱「數據科學家」,畢竟我還是有些許學術和技術背景。既然是「數據記者」,那我們做的自然就叫「數據新聞」了。什麼算數據新聞呢?回答這個問題,如同回答什麼是雲計算?什麼是物聯網?什麼是大數據?什麼是H5?……和任何一個新興行業一樣,buzzword的背後,有人在做乾貨,有人只是在玩弄商業詞藻。有人是興趣使然,有人只是職業憂慮——怕跟不上這一波潮流。所以,不如拋開定義,舉點例子。其實,我幾個月前寫的文章《40张图解Code for系列风潮》中,提到兩個案例即是。

第一個是對香港立法會的投票記錄進行「降維」分析,令議員的真實投票取向暴露無遺。第二個是將香港人口普查數據結構化,並進一步可視化,讓普通人也能從中獲取有用信息(Gazetteer)。這兩個項目都是14年和CODE4HK的朋友一起做的。做這些項目,讓我們看到了開放數據、數據分析、數據可視化的潛力。「立法會光譜」在主場新聞上發出後,有民衆留言,「平日見H講話很激進,卻不知道其原來是泛民第二保守」。言辭有假,數據不欺。用科學的方法還原真實世界,我想是數據新聞要做的。再說Gazetteer項目,雖然分析不多,但數據搜集與可視化方面耗費了社區很大的人力。如果不做這些工作,政府的人口普查數據將永遠是網站上的400張Excel表格。除了學者之外,估計無人問津。當我們將統計數據轉化爲顏色,標註在地圖上時,每個普通市民,都能輕易地回答與他們生活息息相關的問題。「香港男女比例如何?哪裏最失衡?」;「什麼地方房租最貴?」;「哪些人的收入最高?」;「男女所從事職業有什麼區別?」;……將數據化簡,推入公衆視野,也是數據新聞從業者的責任。

數據新聞是新興的,如何培養讀者羣尚且是一個問題。甚至,如何給「數據新聞」正名,是件急迫的事情。「現在朋友圈裏面那些又是大圖又是音樂的頁面我都不想點了。本來看文字,只看小標題,掠過正文,二十秒就看完;現在它強迫我用它的節奏,浪費兩分鐘才看完」,一位不願透露姓名的讀者說。我表示很遺憾,這不是數據新聞;或者,這不是所有的數據新聞。我想,這裏躺槍的有兩個東西,一是「H5」,二是「數據新聞」。所以,除了「做新聞」外,想必我們還有很多傳道的工作要做。建立嚴謹的邏輯體系,培養考據的習慣和量化的思維,訓練基本的數據搜集、分析、與可視化的方法,是我們要帶給讀者的。

與其將「數據」視作異物,不如說是建立一套新的語言體系。好比,懂了英文,便可以閱讀大量原始材料;懂了程序語言,才可以與電腦交流。懂了「數據」,也許我們會更接近真相。最終,不分你我,不分「作者」和「讀者」,只有「愛好者」——而媒體消失,只有社區。雖然「數據科學」現在對普通人是神祕的,但總有一天面紗揭開,這套工具變得非常易用。就像是現在大家都會用Word排版,但在30年前,專業排版需要打代碼,如同寫程序一般複雜。實現最終理想,還有很長路要走,從培養興趣到體驗參與,從理論搭建到工具鏈升級,……。總之,我們開始嘗試。我們講究結果可重造,我們講究過程可追溯。我們熱愛開源。我們熱愛交流。我們希望更多人加入,並給予力所能及的幫助。人變多,必然攤薄我們的價值,但並不遺憾。相反,我希望這個過程越快越好,這樣我才能早點進入下一段旅程。

說來也巧,主編張潔平第一次找到我的時候,正是今年生日當天。聽過介紹之後,我說,要是這Offer是在去年,咱們就這麼定了;現在真是有一堆很實際的問題要解決,所以再等等看。但從美國回來之後,幾次接觸下來,沒多久就加入了。因爲我看到了更多願意發聲的年輕人,更多願意理性思考的年輕人,更多願意爲建立事實基礎而付出時間與精力的人。這和我們以前在CODE4HK做的事情,理念高度重合。在CODE4HK,我們關心社會問題,但避免意識層面無謂的爭執。我們用技術解除信息的束縛,用技術改進社會問題。拋開政見,技術無界;放下偏執,真理無界。在「端」,我們關心社會問題,但立足事實,講究調研。數據科學,無疑是方法論層面的巨大助力,甚至是革新。

如今,社會割裂,矛盾激化。人們要麼是不聞不問,好似什麼都沒發生,當一個掩耳盜鈴者。或者,片面瞭解,盲目行動,有時甚至當人槍子。再或者,陰謀老道,僅「笑而不語」。那我們要如何?偷發刊詞的標題吧,「漩渦裏的人,有責任說出漩渦的樣子」。而用數據科學,我們想挖出人們沒有看到過的「漩渦」。

 

 


Posted by: Pili Hu

One thought on “近況|「端」數據”

Leave a Reply