大數據比你更了解自己?

「大數據比你更了解自己」,這不是一道聯校中文辯論比賽的命題,而是我最近和一位創科界朋友的討論話題。

因為任教一個大學課程,最近簡略地做了一些有關大數據的研習。不少資料在提及大數據的「威力」時,常用上這句「大數據比你更了解自己」作結論,例如Netflix透過收集你「煲劇」的數據,比你更了解自己看電影的口味、Amazon比你更了解自己要買的書,等等。我也漸被說服。但朋友卻認為這言過其實,只是科技巨企以此來操縱用戶的一句口號、一個公關幌子。

我在討論過程中提及兩家企業有關大數據的經典案例,Target和Netflix,而朋友卻從未聽過。這是兩個相當有趣和具說服力的案例,不如借此機會向大家稍作介紹,讓你也可以參與這命題的思考練習。

首先幾個高度簡化的基本概念。「大數據」(Big Data)指極度龐大、人力難以有效處理的數據,它們可以零碎、無序、性質不一…但不管數據再大,如果沒經過有效的整理和分析,並無太大用處。「數據分析」(Data Analytics)就是一個使數據變得有價值的過程,透過「數據挖掘」(Data Mining),從海量的數據中發掘規律,並由規律中作出預測。一般來說,數據越多、呈現的規律越清晰、作出的預測也越準確。這是其中一種數據科學常見的應用,也是我們這次討論的中心思想。

2012年2月,一位即將獲得普立茲獎的《紐約時報》年輕記者Charles Duhigg,發表了一篇連鎖零售店Target以數據篩選出懷孕顧客的報導,奠下一個歷久不衰的「大數據」應用案例(待續:科企如何透視你的祕密)。

本文率先於《晴報》「創業群俠傳」見報