Slide
Slide
Slide
Hitachi_AI_HCI
Hitachi_HCI
HCI
previous arrow
next arrow

開放數據 多搞比賽 從Kaggle打擂台說起

中國人常說「勤有功, 戲無益」。這句話已不合時宜,近年通過遊戲學習法(Gamification),衍生出極大商機。遊戲不單可刺激學習的好奇心,也可以設計出更好的學習課程,甚至從遊戲和互動過程,以攻克難關,尋求突破。

全球最為人熟悉AI擂台,相信是2010年開始舉辦的ImageNet,比賽辨識和分類網上的圖片內容,ImageNet比賽由普林斯頓大學研究人員發起。2012年多倫多大學博士生Alex Krizhevsky參賽,開發了深度學習框架AlexNet,一嗚驚人,錯誤率從25%一下減至15%,視覺運算研究自此突飛猛進,幾年內進入商用階段。我們熟悉的商湯,也是站在巨人肩膀上成長。不過ImageNet辨識錯誤率已甚低,今年加入更困難的3D圖像。

類似遊戲學習法,市場上汗牛充棟。近年AI興起,AI編程又跟傳統程式設計不一樣(機器學習處理推論問題,不是嚴謹的邏輯關係);難覓適當人才。其中一個方法,乃透過遊戲及比賽選拔,美國就有初創Kaggle,以AI競技吸引好手打擂台,結果被Google收購。

不少人認識機器學習,均以推算樓價的遊戲開始。香港以寸金尺土見稱,更令人感到興趣。顧客買賣樓宇,地產經紀說出樓盤位置、樓齡、建築或實用面積,買家便心中有數,估計一個大約價錢。更有經驗者,更可以同區樓價,校網等因素作參考。以上種種考慮因素,就可應用於機器學習,以數據為基礎,推算出最好答案。以機器學習推算樓價,不少AI課程均有提及,掌握其中竅門,卻不簡單。

去年倫敦Strata Data Conference國際大數據會議,知名AI競賽平台Kaggle總裁Anthony Goldbloom;總結了打造機器學習三個重點。首先是要把收集數據,以不同方法排列或組合,務求用戶熟悉數據關係;第二,便是要提取不同特徵(Feature)作使用和分析。以上述樓市為例;從數䶖、面積、位置、甚至校網,都可成特徵,再加入演算法中先行測試。最後,便是選擇一個相關的演算方法(Algorithm),輸入大量數據,建立模型作日後的推論。

Goldbloom指出上述三步曲之中;第二步的特徵建立最重要。他舉出成功個案之一,以機器學習估計二手車市場價值。設計機器學習的參賽者,留意到汽車的顏色,可成為演算的特徵之一;故此車䶖,駕駛紀錄外,又再加上一般顏色和罕有顏色區別。原因是擁有罕有顏色汽車的車主,應較愛護車輛,打理較仔細,二手市場上價錢,亦相對地提高。

據Goldbloom觀察,推論如果選錯了特徵,則難建立可靠模型。集中搞算法,忽略提取特徵的重要性,捨本逐末,如緣木求魚。

另外一個受初學者歡迎的挑戰,以鐵達尼郵船生還者特徵,作為預測數據。當年鐵達尼號與冰山相撞而沉沒,差不多四份之三乘客,近1500人罹難;慘劇主因是救生艇不足。通過數據分析,以機器學習演算,不難發現坐頭等艙乘客、或婦女嬰兒生還機會,較其他乘客為大。

Kaggle在2009年成立;平台從企業提供真實數據;再以比賽形式,參賽者使用透過不同機器學習的算法,預測指定結果,以最準確推算出結果的一隊勝出,優勝者可獲得獎金或獎品。去年Google收購Kaggle鞏固AI業務,市場不感意外。AI專家難求,Kaggle可發掘專才,大企業紛謀求合作。

Kaggle是近年推動機器學習功臣之一。兩年前Kaggle跟澳洲Telstra電信合作,提供了一堆從內部收集到的網絡數據,參賽者根據資料,開發網絡預測系統,估計到了那些時段,網絡會有中斷事故。優勝者除可獲得獎金,更有機會收到聘書。類似預測,香港也有類似案例,水務處,就曾聘請IBM建立機器學習,預測何時爆水管,安排率先維修。近期港鐵工程沉降搞得沸沸揚揚,AI應也可預測。政府或港鐵開放數據,說不定重賞之下,必有勇夫。

開放數據,多搞比賽。說不定香港可變AI之都。

作者:梁定康,現任網絡工程師,負責研究IT保安及網絡設計

Leave a Reply

Your email address will not be published. Required fields are marked *