中國的AI工廠

上月我接受商台節目主持人黃永訪問談創科，當時提到，在全球人工智能（AI）的競賽中，中國很有機會勝出，原因是內地與歐美相比，不那麼注重個人私隱，加上人口龐大、消費者的互聯網應用廣泛，故有大量數據可「餵」給機器學習。

數據是人工智能的原材料，數據越龐大，人工智能就越準確，因此有上述的推斷。但我當時忽略了一點，內地有可能領先全球人工智能發展，除數據多外，更重要的原因是如雨後春筍般冒起的數據「標記」（tagging）工廠。

《紐約時報》去年年底一篇文章“How Cheap Labor Drives China’s AI Ambitions” （「廉價勞動力如何推動中國的人工智慧雄心」），大開我眼界。

記者到訪河南一座原先是水泥廠的地方，看見廿多個年輕人整齊坐著，目不轉睛地凝視面前的電腦屏幕，不斷把見到的圖像作標記：汽車、交通燈、麵包、牛奶、朱古力…沒有標記，人工智能根本無法識別任何事物；標記越多，人工智能的識別能力就會提高，變得越來越準確。

我有朋友正開發一個教人「耍太極」的AI應用程式，目的是讓用家跟著做的時候，程式會自動作出反饋，告訴你哪些動作做對了，哪些需改進。而為了讓程式「認」得出所有動作，朋友的開發團隊特地請了一位太極師傅和他的弟子們，像上班那樣每天對著攝錄機打太極拳，反覆地做、大量地做。然後這些影片將會交給團隊加工，即做「標記」，把人體的每一個動作、動作的每一部份等，一一標記下來，「餵」給電腦。數據不足，電腦的人工智能就會顯得笨拙，在辨識方面出現誤差。所以數據和標記是人工智能非常重要的「基建」。基礎不穩，萬丈高樓就無從拔地而起。

朋友告訴我，這些「基建工程」極其枯橾乏味，對智力要求頗低，香港沒哪個工程師願意幹這事。現在好了，這些工作可以外判出去，讓內地的AI工廠效勞。

對工人們來說，AI工廠的工作要求與原先的沒兩樣，而且「訂單」源源不絕，市場正在冒起，難怪水泥廠之類產能過剩或欠缺競爭力的舊車間，紛紛「升級」轉型。

我曾看過一條由AI獨角獸「商湯」播放的影片，職員從自動電梯大批進入大樓，屏幕不斷冒出每個人的姓名，自動辨認並「打卡」，過程像流水般暢順。如此速度和準確度使我驚訝，現在更加明白，「智能」背後，仍是大量「人工」的汗水。

***

本文1月4日刊登於《晴報》專欄「創業群俠傳」