上月我接受商台節目主持人黃永訪問談創科,當時提到,在全球人工智能(AI)的競賽中,中國很有機會勝出,原因是內地與歐美相比,不那麼注重個人私隱,加上人口龐大、消費者的互聯網應用廣泛,故有大量數據可「餵」給機器學習。
數據是人工智能的原材料,數據越龐大,人工智能就越準確,因此有上述的推斷。但我當時忽略了一點,內地有可能領先全球人工智能發展,除數據多外,更重要的原因是如雨後春筍般冒起的數據「標記」(tagging)工廠。
《紐約時報》去年年底一篇文章“How Cheap Labor Drives China’s AI Ambitions” (「廉價勞動力如何推動中國的人工智慧雄心」),大開我眼界。
記者到訪河南一座原先是水泥廠的地方,看見廿多個年輕人整齊坐著,目不轉睛地凝視面前的電腦屏幕,不斷把見到的圖像作標記:汽車、交通燈、麵包、牛奶、朱古力…沒有標記,人工智能根本無法識別任何事物;標記越多,人工智能的識別能力就會提高,變得越來越準確。
我有朋友正開發一個教人「耍太極」的AI應用程式,目的是讓用家跟著做的時候,程式會自動作出反饋,告訴你哪些動作做對了,哪些需改進。而為了讓程式「認」得出所有動作,朋友的開發團隊特地請了一位太極師傅和他的弟子們,像上班那樣每天對著攝錄機打太極拳,反覆地做、大量地做。然後這些影片將會交給團隊加工,即做「標記」,把人體的每一個動作、動作的每一部份等,一一標記下來,「餵」給電腦。數據不足,電腦的人工智能就會顯得笨拙,在辨識方面出現誤差。所以數據和標記是人工智能非常重要的「基建」。基礎不穩,萬丈高樓就無從拔地而起。
朋友告訴我,這些「基建工程」極其枯橾乏味,對智力要求頗低,香港沒哪個工程師願意幹這事。現在好了,這些工作可以外判出去,讓內地的AI工廠效勞。
對工人們來說,AI工廠的工作要求與原先的沒兩樣,而且「訂單」源源不絕,市場正在冒起,難怪水泥廠之類產能過剩或欠缺競爭力的舊車間,紛紛「升級」轉型。
我曾看過一條由AI獨角獸「商湯」播放的影片,職員從自動電梯大批進入大樓,屏幕不斷冒出每個人的姓名,自動辨認並「打卡」,過程像流水般暢順。如此速度和準確度使我驚訝,現在更加明白,「智能」背後,仍是大量「人工」的汗水。
***
本文1月4日刊登於《晴報》專欄「創業群俠傳」