資料科學家需學的原理與技術
資料前置處理和特徵工程已經被認為是許多應用中模型效能的主要推手。我很高興終於有一本專書來談論這個主題。Alice和Amanda詳細解釋了許多常用技術的精妙細節。"
—AndreasC.Müller
哥倫比亞大學機器學習講師
scikit-learn核心開發者
特徵工程是機器學習生產線中關鍵的步驟,不過這個領域還很少被單獨檢視過。在這本實用的書中,您會學到將特徵──原始資料的數值表達法──淬取與轉換為機器學習模型格式的技術。每一章都使用單一的資料問題來導引您,例如如何表達文字或影像資料。綜合在一起後,這些範例就描繪了特徵工程的主要原理。
不是只教導這些原理,作者AliceZheng和AmandaCasari也在整本書中使用習題來聚焦在實際應用上。最後一章會藉由在一個真實的結構化資料集上應用數種特徵工程技術來總結全書所學。程式碼範例則使用了Python的套件,包括numpy、Pandas、scikit-learn、以及Matplotlib。
您會學到:
‧數值資料的特徵工程:過濾、分箱、縮放、對數轉換及次方轉換
‧自然文本技術:詞袋、n元語法及片語偵測
‧以基於頻率之過濾與特徵縮放來消除不具資訊性的特徵
‧類別變數的編碼技術,包括特徵雜湊和分箱計數
‧使用主要成份分析進行基於模型的特徵工程
‧模型堆疊和使用k-means作為特徵淬取技術的概念
‧使用手動和深度學習技術之影像特徵淬取