機器學習技術與應用 | 單元 5.3 核心主題解析
一、 資料集切分:三段論法 必考觀念
為了確保模型的泛化能力,我們不能在「看過」的資料上評估模型。
1.1 三大子集的功能
- 訓練集 (Training Set): 用於調整模型權重(參數)。比例通常佔 70-80%。
- 驗證集 (Validation Set): 用於 「超參數調優」 或模型選擇。它不參與訓練,但參與「決策」。
- 測試集 (Test Set): 模型「期末考試」。完全獨立,用於衡量模型在真實世界的效能。
應試陷阱:
測試集絕對不能參與模型的訓練或參數選擇!如果測試集的結果反過來影響了參數調整,這稱為「資料洩露 (Data Leakage)」,會導致評估結果過於樂觀。
二、 驗證策略 (Validation Strategy) 方法論
當資料量不足或需要更穩定的評估時,必須使用特殊的驗證技巧。
2.1 K-折交叉驗證 (K-Fold Cross-Validation)
作法: 將資料均分為 K 份,輪流拿 1 份當驗證集、其餘 K-1 份當訓練集。最後取平均效能。
優點: 降低單次切分資料造成的隨機誤差,對小樣本特別有用。
2.2 分層採樣 (Stratified Sampling)
場景: 用於資料 「類別不平衡」 時。例如信用卡詐騙案件極少,分層採樣可確保訓練集與驗證集中的詐騙比例與原資料一致。
三、 分類模型評估指標 計算題重鎮
這是考試中最常出現計算題的地方,必須熟記混淆矩陣 (Confusion Matrix)。
| 指標 | 公式 | 白話解釋 |
|---|---|---|
| 準確率 (Accuracy) | $(TP+TN) / Total$ | 全部預測對的比例(資料不平衡時無效)。 |
| 精確率 (Precision) | $TP / (TP+FP)$ | 預測為真 裡面,有多少是真的?(別誤殺) |
| 召回率 (Recall) | $TP / (TP+FN)$ | 實際上為真 裡面,有多少被抓出來?(別放過) |
| F1-Score | $2 \times \frac{Pre \times Rec}{Pre + Rec}$ | 精確與召回的「調和平均」,綜合評價。 |
ROC 曲線與 AUC 指標:
- ROC: 橫軸是偽陽率 (FPR),縱軸是真陽率 (TPR)。
- AUC: ROC 曲線下的面積。AUC = 1 是完美模型;AUC = 0.5 是隨機猜測。**AUC 的優點是不受分類閾值 (Threshold) 影響。**
四、 回歸模型評估指標 連續數值
當目標是連續數字(如房價)時,使用的指標與分類不同。
- MAE (平均絕對誤差): 誤差的絕對值平均。直觀,對異常值較具容忍性。
- MSE (均方誤差): 誤差平方的平均。**會放大大的誤差**,因此模型會對極端錯誤非常敏感。
- RMSE (均方根誤差): MSE 開根號。單位與原資料一致,利於解讀。
- $R^2$ (決定係數): 介於 0~1。代表模型能解釋目標變異的百分比。愈接近 1 愈好。
五、 模型穩定性與監控 進階治理
模型在線上運行一段時間後,效能會下降,這需要持續監控。
5.1 模型衰退與漂移 (Drift)
- 概念漂移 (Concept Drift): 特徵與目標的關係變了(例如疫情後消費習慣改變)。
- 數據漂移 (Data Drift): 輸入資料的分佈變了(例如新地區的用戶特徵與舊地區不同)。