前言 .. 1
第一部分
第1章機器學習項目流程.11
1.1 如何利用機器學習 11
1.2 機器學習項目的流程 13
1.3 實際系統(tǒng)中的機器學習問題的處理方法 27
1.4 機器學習系統(tǒng)的成功要素 32
1.5 小結 34
第2章機器學習的用途 35
2.1 算法選擇 35
2.2 分類 37
2.3 回歸 69
2.4 聚類與降維 72
2.5 其他 74
Michiaki Ariga,東京工業(yè)大學計算機工程學博士畢業(yè),現(xiàn)為東京大學教授、日本國立信息學研究所客座教授。主要從事機器學習的理論研究和算法開發(fā),以及在信號和圖像處理等方面的應用。2011年獲日本信息處理學會長尾真紀念特別獎。著有《統(tǒng)計機器學習》等。
本書共分9章,主要內(nèi)容有:第1章總結機器學習項目的推進流程。第2章介紹機器學習的主要功能和各種算法。第3章以垃圾郵件判別為例,介紹對學習完成后的預測模型進行離線評價的方法。第4章梳理在計算機系統(tǒng)里集成機器學習功能的模式,同時介紹機器學習基礎的日志設計。第5章介紹機器學習分類任務里的正確答案數(shù)據(jù)的獲取方法。第6章介紹用于驗證實施方案是否真正有效的統(tǒng)計鑒定、因果推理,以及A/B試驗等方法。第3章是預測模型的離線驗證,本章則介紹實施過程中的實時驗證。第7章以電影推薦為例,學習推薦預測系統(tǒng)的開發(fā)實現(xiàn)案例。第8章闡述搜索式分析過程及分析報告,結合在第1章的機器學習流程中出現(xiàn)的“不執(zhí)行機器學習的例子”,介紹如何整理實際分析結果的相關心得。第9章采用所謂Uplift Modeling方法學習更有效的營銷方法。