機器學習技術與應用 | 單元 5.4 核心主題解析
一、 參數 vs. 超參數:誰來決定? 基本功
區分這兩者是理解模型優化的第一步。
| 類別 | 定義 | 例子 | 決定者 |
|---|---|---|---|
| 參數 (Parameters) | 模型內部的配置,從資料中學習而得。 | 神經網路權重、線性回歸係數。 | 演算法/資料 |
| 超參數 (Hyperparameters) | 模型外部的設定,在訓練前手動指定。 | 學習率、K-Fold 的 K、隱藏層數。 | 工程師 (你) |
二、 超參數調優方法 (Hyperparameter Tuning) 必考工具
如何在茫茫設定中找到最優組合?
- 網格搜尋 (Grid Search): 窮舉所有可能的排列組合。
缺點: 非常耗時(計算量隨參數增加呈指數成長)。 - 隨機搜尋 (Random Search): 在參數空間隨機採樣。
優點: 通常比網格搜尋更有效率,能更快發現重要的參數範圍。 - 貝氏優化 (Bayesian Optimization): 根據先前的測試結果,預測下一組可能更好的參數。
優點: 效率最高,適合計算昂貴的大型模型。
三、 解決過擬合 (Overfitting) 的實戰策略 應用大題
當訓練集效果很好,但測試集很差時(高變異),你該怎麼辦?
- 資料層面: 增加訓練資料量 (More Data)、資料增強 (Data Augmentation)。
- 模型層面: 降低模型複雜度(減少層數或神經元)、早停法 (Early Stopping)。
- 技術層面: 使用正則化、Dropout、整合學習 (Ensemble Learning)。
四、 正則化技術 (Regularization) 數理邏輯
透過在損失函數中加入一個「懲罰項」,限制權重的大小,避免模型太「偏激」。
4.1 L1 正則化 (Lasso)
特性: 會將不重要的特徵權重變為 0。
用途: 除了防過擬合,還兼具 「特徵選擇」 的功能。
4.2 L2 正則化 (Ridge)
特性: 會讓權重變小(趨近於 0),但不會等於 0。
用途: 使模型變得平滑,對所有特徵都有一定的保留,是目前最常用的正則化方式。
五、 深度學習特有優化技巧 工程實務
5.1 丟棄法 (Dropout)
訓練時隨機讓部分神經元「罷工」。這強迫模型不能過度依賴特定神經元,增加魯棒性 (Robustness)。
5.2 批次正規化 (Batch Normalization)
將每一層的輸出進行標準化。
好處: 加快收斂速度、穩定訓練過程、減少對初始值的敏感度。
5.3 早停法 (Early Stopping)
監控驗證集的損失。一旦驗證集損失開始上升(代表開始過擬合),就提前結束訓練。