iPAS 模型訓練、評估與驗證 (Training & Evaluation) 深度筆記

 

機器學習技術與應用 | 單元 5.3 核心主題解析

一、 資料集切分:三段論法 必考觀念

為了確保模型的泛化能力,我們不能在「看過」的資料上評估模型。

1.1 三大子集的功能

  • 訓練集 (Training Set): 用於調整模型權重(參數)。比例通常佔 70-80%。
  • 驗證集 (Validation Set): 用於 「超參數調優」 或模型選擇。它不參與訓練,但參與「決策」。
  • 測試集 (Test Set): 模型「期末考試」。完全獨立,用於衡量模型在真實世界的效能。
應試陷阱:

測試集絕對不能參與模型的訓練或參數選擇!如果測試集的結果反過來影響了參數調整,這稱為「資料洩露 (Data Leakage)」,會導致評估結果過於樂觀。

二、 驗證策略 (Validation Strategy) 方法論

當資料量不足或需要更穩定的評估時,必須使用特殊的驗證技巧。

2.1 K-折交叉驗證 (K-Fold Cross-Validation)

作法: 將資料均分為 K 份,輪流拿 1 份當驗證集、其餘 K-1 份當訓練集。最後取平均效能。

優點: 降低單次切分資料造成的隨機誤差,對小樣本特別有用。

2.2 分層採樣 (Stratified Sampling)

場景: 用於資料 「類別不平衡」 時。例如信用卡詐騙案件極少,分層採樣可確保訓練集與驗證集中的詐騙比例與原資料一致。

三、 分類模型評估指標 計算題重鎮

這是考試中最常出現計算題的地方,必須熟記混淆矩陣 (Confusion Matrix)。

指標公式白話解釋
準確率 (Accuracy)$(TP+TN) / Total$全部預測對的比例(資料不平衡時無效)。
精確率 (Precision)$TP / (TP+FP)$預測為真 裡面,有多少是真的?(別誤殺)
召回率 (Recall)$TP / (TP+FN)$實際上為真 裡面,有多少被抓出來?(別放過)
F1-Score$2 \times \frac{Pre \times Rec}{Pre + Rec}$精確與召回的「調和平均」,綜合評價。
ROC 曲線與 AUC 指標:
  • ROC: 橫軸是偽陽率 (FPR),縱軸是真陽率 (TPR)。
  • AUC: ROC 曲線下的面積。AUC = 1 是完美模型;AUC = 0.5 是隨機猜測。**AUC 的優點是不受分類閾值 (Threshold) 影響。**

四、 回歸模型評估指標 連續數值

當目標是連續數字(如房價)時,使用的指標與分類不同。

  • MAE (平均絕對誤差): 誤差的絕對值平均。直觀,對異常值較具容忍性。
  • MSE (均方誤差): 誤差平方的平均。**會放大大的誤差**,因此模型會對極端錯誤非常敏感。
  • RMSE (均方根誤差): MSE 開根號。單位與原資料一致,利於解讀。
  • $R^2$ (決定係數): 介於 0~1。代表模型能解釋目標變異的百分比。愈接近 1 愈好。

五、 模型穩定性與監控 進階治理

模型在線上運行一段時間後,效能會下降,這需要持續監控。

5.1 模型衰退與漂移 (Drift)

  • 概念漂移 (Concept Drift): 特徵與目標的關係變了(例如疫情後消費習慣改變)。
  • 數據漂移 (Data Drift): 輸入資料的分佈變了(例如新地區的用戶特徵與舊地區不同)。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

沒有留言:

張貼留言

>