• 科企如何透視你的祕密

    (接前文:大數據比你更了解自己?

    美國連鎖零售店Target的營銷部,為增加生意,給公司的數據科學家們出了一道難題:在對方沒有透露的情況下,找出懷孕的顧客來。

    因為只要盡早識別,並向他們作針對性產品宣傳,即將為人父母者是個巨大的「金礦」。Target的數據科學家們果然不賴,他們竟從浩瀚的消費數據中發掘出將為人母者的購物規律:比如從第四個月開始,轉買「無香型」潤膚露;第五個月左右,購入保健品如鎂、鋅、鈣之類;到她們臨盆在即,就會囤積棉花球、面巾等等。

    透過購物習慣,Target的數據科學家對顧客懷孕預測之準確度極高,幾乎連她們的產期都能猜中!一位少女的父親因為女兒收到嬰兒用品的宣傳單張向Target投訴,不久卻悻悻然致歉,原來女兒瞞著自己有喜了。報導此事的《紐約時報》記者Charles Duhigg說,Target後來把這「孕期預測」模型關掉,因為太多顧客對Target居然發現自己的私隱感到害怕。

    而在差不多時期,另一家企業Netflix,也利用大數據做出令人震驚的舉措:宣佈豪擲一億美元,開拍一連兩季由David Fincher導演、Kevin Spacey主演的美國版《紙牌屋》(House of Cards)。這在美國的電視劇製作史上,可謂前無古人的豪賭,沒有人會押注鉅款連拍兩季,因為風險太高、賭注太大。

    但Netflix並不認為那是賭博,只是按數據作出的合理商業決定。因為他們從當時3300萬訂戶的瀏覽數據中發現,大部份人看過David Fincher導演的電影《社交網絡》(The Social Network)、凡Kevin Spacey主演的電影在平台上都很成功、而且這兩類觀眾都很喜歡英國版的《紙牌屋》。結果證明Netflix的大數據用得其所:在美版《紙牌屋》推出後僅三個月內,Netflix共增加300萬訂戶,其中200萬來自美國國內,而這些新增用戶大約帶來7200萬美元額外收入。

    Netflix沒有賭博,它根本立於不敗之地。它從本質上就是一家數據企業,不斷搜集用戶數據以優化體驗和製作受歡迎劇目,截至2019年在全球已擁有1.67億用戶、年收入200億美元。

    Target利用購物數據預測及識別懷孕的消費者,Netflix以數據分析決定開拍一套即將大受歡迎的劇集,他們均可振振有詞宣稱:我們比你更了解自己。

    看了這些案例後,我也同意利用大數據,即使不能就全部人的口味作出預測,對統計學上「平均分佈」中的大部份人口,也可作出機會率相當高的推斷。我朋友卻不同意,他認為這種說法只是科技企業的公關口號,令目標受眾產生自我預期,相信所接收的建議適合自己,令科技企業更容易操縱他們。

    我認為那是因為朋友的口味不符大部份人的規律(即屬於「平均分佈」上兩端的少數)所致,所以他只是個別例子,而大部份人在大多數情況下,都能被大數據預測。你認為呢?

    相關舊文:平行時空

    //新手媽媽或許在Facebook上展示嬰兒的可愛笑臉,但她在Google上搜尋的,卻是「產後抑鬱」和「如何減肥卅磅」…//

    ***

    本文率先於《晴報》專欄「創業群俠傳」見報

  • 大數據比你更了解自己?

    「大數據比你更了解自己」,這不是一道聯校中文辯論比賽的命題,而是我最近和一位創科界朋友的討論話題。

    因為任教一個大學課程,最近簡略地做了一些有關大數據的研習。不少資料在提及大數據的「威力」時,常用上這句「大數據比你更了解自己」作結論,例如Netflix透過收集你「煲劇」的數據,比你更了解自己看電影的口味、Amazon比你更了解自己要買的書,等等。我也漸被說服。但朋友卻認為這言過其實,只是科技巨企以此來操縱用戶的一句口號、一個公關幌子。

    我在討論過程中提及兩家企業有關大數據的經典案例,Target和Netflix,而朋友卻從未聽過。這是兩個相當有趣和具說服力的案例,不如借此機會向大家稍作介紹,讓你也可以參與這命題的思考練習。

    首先幾個高度簡化的基本概念。「大數據」(Big Data)指極度龐大、人力難以有效處理的數據,它們可以零碎、無序、性質不一…但不管數據再大,如果沒經過有效的整理和分析,並無太大用處。「數據分析」(Data Analytics)就是一個使數據變得有價值的過程,透過「數據挖掘」(Data Mining),從海量的數據中發掘規律,並由規律中作出預測。一般來說,數據越多、呈現的規律越清晰、作出的預測也越準確。這是其中一種數據科學常見的應用,也是我們這次討論的中心思想。

    2012年2月,一位即將獲得普立茲獎的《紐約時報》年輕記者Charles Duhigg,發表了一篇連鎖零售店Target以數據篩選出懷孕顧客的報導,奠下一個歷久不衰的「大數據」應用案例(待續:科企如何透視你的祕密)。

    本文率先於《晴報》「創業群俠傳」見報

  • 高科技抗疫

    上周末開始,香港要求所有由內地入境人士進行14天強制檢疫,包括在家中或指定地點作自我隔離,以減低「新冠肺炎」的社區傳播。被問及如何監察有關人士時,高官回應曰自律、上門突擊檢查、 以WhatsApp分享行蹤等等。

    沒想到口口聲聲說要發展智慧城市的香港,在社區防疫上,幾乎和廿一世紀的尖端科技沾不上邊。比較而言,正大力發展人工智能、人臉識別、大數據等科技的中國內地,正利用抗疫此契機,加快它們的應用。可以預計這將對病源的追縱和傳播途徑監控更為有效,但它所造成的個人私隱後患,亦更深遠。

    在抗疫方面,目前內地有一大武器,教全球幾乎所有國家都瞠乎其後:大數據。首先,國家對近乎所有主要電訊商、航空公司、鐵路營運商等有控制權,能獲取海量的人口移動數據作分析。此外,民眾由高鐵購票到申請電話卡,都需要作實名登記,只要電訊商提交某一手提電話號碼發出的訊號,某人的行蹤就無可遁形。

    這在防疫尤其作病源追縱(contact tracing)上有極大好處。在香港,當某人被確診為患者後,醫護只能透過訪談,讓患者回憶自己14日內曾到訪的地方和接觸過的人,追縱有可能被感染的人作檢疫。不管患者是否合作,記憶並不靠譜,遺漏和錯誤的機會很高,令防疫工作事半功倍。

    但內地的做法可以極高效。假設某人從武漢乘高鐵到廣州後被確認為病毒傳播者,有關當局透過電訊商提供的數據,一方面可把他曾到過的地方一一羅列而出,同時跟據高鐵營運者的資料,通知和患者乘坐同一班次、甚至同一車廂的乘客進行檢疫。若患者確診後沒有自我隔離而外出,只要配合人臉識別,要把他從人海中區別出來也不難。有些地方政府甚至可以把這些資料都公開到社交媒體上,原意是讓曾與患者並處的人提防,但後果卻有可能令患者受到不必要的滋擾。

    根據《華爾街郵報》報導,重慶某區利用這些數據,成功把5,500名農曆新年期間由湖北回鄉的人識別出來,並安排其中約一半人作家居隔離;在浙江,一名患者否認曾在武漢與任何人接觸,但當局借助數據分析,發現他在當地曾與三人接觸過。

    目前當局正以舉國之力抗疫,治亂世用重典,只要能把疫情控制下來,人民對個人資料的提供不大抗拒。當危機過去,國家對大數據和人工智能的應用,將更進一步,這是不能逆轉的。一旦這套監控手段用在太平盛世,那是怎樣一番光景?如何保証不被濫用?到時人們恐怕無法擺脫自由和安全的兩難了。

    ***

    本文精簡版率先見報:《晴報》專欄「創業群俠傳」