iPAS 演算法偏見與可解釋性深度筆記

機器學習技術與應用 | 單元 6.2 核心主題解析


一、 演算法公平性基礎定義

演算法偏見(Algorithmic Bias)是指 AI 模型因訓練數據、模型架構或人為定義錯誤,導致對特定特徵(如性別、種族)產生不公正的差別待遇。

  • 敏感屬性 (Sensitive Attributes): 受法律或倫理保護的特徵(性別、宗教等)。
  • 群體公平 (Group Fairness): 不同群體(如男 vs 女)應獲得相似的正面結果比例。
  • 個體公平 (Individual Fairness): 相似的個體應獲得相似的結果。

二、 偏見產生的多維來源 常考解析

理解偏見源頭有助於選擇正確的緩解策略:

2.1 數據層面 (Data-driven Bias)

  • 歷史偏見 (Historical Bias): 數據本身正確,但反映了社會過去的歧視現象。
  • 代表性偏見 (Representation Bias): 數據取樣不均(如醫療數據缺乏特定族群樣本),導致對少數群體預測力弱。
  • 測量偏見 (Measurement Bias): 用來衡量目標的代理變數選取不當。

2.2 演算法與評估層面

  • 匯總偏見 (Aggregation Bias): 單一模型強行擬合多元背景的數據。
  • 評估偏見 (Evaluation Bias): 僅看整體 Accuracy 而忽視混淆矩陣中特定群體的誤差(如特定族群 FP 過高)。

三、 公平性衡量指標 (Fairness Metrics) 核心重點

指標邏輯敘述應考關鍵字
統計均等 (Statistical Parity)各群體獲得正面結果的機率應相等。結果比例、無關能力
均等機會 (Equal Opportunity)在「具備能力」的人中,各群體被選中的機率相等。真陽性率 (TPR) 一致
均等賠率 (Equalized Odds)各群體的真陽性率 (TPR) 與偽陽性率 (FPR) 皆相等。TPR 與 FPR 同時看

四、 三階段偏見緩解技術

預處理 (Pre-processing)
清洗/調整數據
處理中 (In-processing)
修改損失函數
後處理 (Post-processing)
調整分類門檻

💡 考試技巧: 若題目問「如何在不重新訓練模型的情況下提高公平性?」,應選「後處理 (Post-processing)」。

五、 演算法透明度與可解釋性 (XAI) 新增主題

可解釋人工智慧 (Explainable AI, XAI) 旨在讓人類理解模型決策的原因,解決「黑盒模型」的不透明問題。

5.1 透明度的三個層次

  • 演算法透明度: 了解演算法本身的邏輯(如決策樹如何分支)。
  • 可解釋性: 提供人類可理解的理由(例如:因為收入低於 X 萬所以拒貸)。
  • 可問責性: 當決策出錯時,能追溯責任並進行修正。

5.2 核心 XAI 技術分類

依據解釋的範圍與時機分類:

分類維度說明代表性方法
全局解釋 (Global)描述模型的整體行為邏輯。特徵重要性排名 (Feature Importance)
局部解釋 (Local)解釋特定某一筆資料為何被如此預測。LIMESHAP
事前解釋 (Ante-hoc)模型本身就具備可解釋性。線性回歸、決策樹、K-NN
事後解釋 (Post-hoc)對黑盒模型進行外掛解釋。SHAP, 特徵熱圖 (Saliency Maps)
LIME vs SHAP 之辨析:
  • LIME: 透過在該樣本周圍建立簡單的模型(如線性模型)來局部逼近。
  • SHAP: 基於博弈論的「夏普里值」,能提供特徵對預測貢獻的量化數值,具備更好的理論基礎。

六、 應試總結心法

© iPAS AI 應用規劃師應考筆記系列 | 本內容對應科目三「機器學習技術與應用」單元 6.2

Read More »
>