機器學習技術與應用 | 單元 4.2 核心主題解析
一、 線性模型:統計學的基石 必考指標
線性模型是解釋性最強的模型,也是處理結構化資料的首選入門方法。
1.1 線性回歸 (Linear Regression)
原理: 尋找一條直線 $y = wx + b$,最小化預測值與實際值的殘差平方和 (MSE)。
限制: 假設資料呈線性關係,對異常值 (Outliers) 敏感。
1.2 邏輯回歸 (Logistic Regression)
原理: 雖名為回歸,實則用於 「分類」。透過 Sigmoid 函數將線性輸出映射到 [0, 1] 之間,代表機率。
優點: 運算快、輸出具機率意義、模型參數具解釋性。
二、 決策樹與集成學習 (Ensemble Learning) 高頻考點
這是目前實務上處理「表格資料 (Tabular Data)」效能最強大的家族。
核心概念對照:
| 技術 | 說明 | 核心機制 |
|---|---|---|
| 決策樹 (Decision Tree) | 透過資訊增益 (Information Gain) 或 Gini 指數切割資料。 | 易過擬合,解釋性極佳。 |
| 隨機森林 (Random Forest) | Bagging 策略。並行訓練多棵樹,最後投票決定。 | 降低變異 (Variance),防止過擬合。 |
| 提升法 (Boosting) | 串行訓練。後一棵樹學習前一棵樹的 殘差 (Error)。 | 如 XGBoost, LightGBM, CatBoost。 |
三、 支持向量機 (SVM) 與 K-近鄰 (KNN)
3.1 支持向量機 (SVM)
原理: 尋找一個超平面 (Hyperplane),使兩類資料間的 間隔 (Margin) 最大化。
關鍵字: 核函數 (Kernel Trick) — 將低維不可分資料投射到高維空間。適合小樣本、高維度資料。
3.2 K-近鄰演算法 (KNN)
原理: 惰性學習 (Lazy Learning)。預測時計算與鄰居的距離(如歐式距離),「近朱者赤」。
缺點: 計算量隨資料量增加而劇增,且受特徵量綱(單位)影響大(需做正規化)。
四、 無監督學習:分群與降維 探索性分析
當資料沒有標籤 (Label) 時使用的演算法。
K-Means 分群:
- 隨機初始化 K 個中心點。
- 將每個點分配給最近的中心。
- 重新計算中心點位置,直到收斂。
※ 注意:需事先指定 K 值,且對初始值敏感(常使用 K-Means++ 改善)。
4.2 主成分分析 (PCA)
原理: 線性降維。尋找資料變異最大的方向,將高維資料投影過去。目的:減少特徵數、去除雜訊、資料視覺化。
五、 演算法選擇情境對照表 決策必讀
| 應用情境 | 建議演算法 | 關鍵原因 |
|---|---|---|
| 預測房價、氣溫 | 線性回歸、XGBoost (Regression) | 預測連續數值。 |
| 垃圾郵件、腫瘤辨識 | 邏輯回歸、隨機森林、SVM | 二元分類任務。 |
| 電商客戶分眾 | K-Means, 層次聚類 | 探索隱藏群體。 |
| 手寫文字、高維影像 | 深度學習 (CNN)、SVM (Kernel) | 特徵極度複雜且非線性。 |
| 表格資料且求極致準度 | XGBoost / LightGBM | Boosting 家族在結構化資料表現最優。 |
沒有留言:
張貼留言