iPAS 演算法偏見與可解釋性深度筆記

機器學習技術與應用 | 單元 6.2 核心主題解析


一、 演算法公平性基礎定義

演算法偏見(Algorithmic Bias)是指 AI 模型因訓練數據、模型架構或人為定義錯誤,導致對特定特徵(如性別、種族)產生不公正的差別待遇。

  • 敏感屬性 (Sensitive Attributes): 受法律或倫理保護的特徵(性別、宗教等)。
  • 群體公平 (Group Fairness): 不同群體(如男 vs 女)應獲得相似的正面結果比例。
  • 個體公平 (Individual Fairness): 相似的個體應獲得相似的結果。

二、 偏見產生的多維來源 常考解析

理解偏見源頭有助於選擇正確的緩解策略:

2.1 數據層面 (Data-driven Bias)

  • 歷史偏見 (Historical Bias): 數據本身正確,但反映了社會過去的歧視現象。
  • 代表性偏見 (Representation Bias): 數據取樣不均(如醫療數據缺乏特定族群樣本),導致對少數群體預測力弱。
  • 測量偏見 (Measurement Bias): 用來衡量目標的代理變數選取不當。

2.2 演算法與評估層面

  • 匯總偏見 (Aggregation Bias): 單一模型強行擬合多元背景的數據。
  • 評估偏見 (Evaluation Bias): 僅看整體 Accuracy 而忽視混淆矩陣中特定群體的誤差(如特定族群 FP 過高)。

三、 公平性衡量指標 (Fairness Metrics) 核心重點

指標邏輯敘述應考關鍵字
統計均等 (Statistical Parity)各群體獲得正面結果的機率應相等。結果比例、無關能力
均等機會 (Equal Opportunity)在「具備能力」的人中,各群體被選中的機率相等。真陽性率 (TPR) 一致
均等賠率 (Equalized Odds)各群體的真陽性率 (TPR) 與偽陽性率 (FPR) 皆相等。TPR 與 FPR 同時看

四、 三階段偏見緩解技術

預處理 (Pre-processing)
清洗/調整數據
處理中 (In-processing)
修改損失函數
後處理 (Post-processing)
調整分類門檻

💡 考試技巧: 若題目問「如何在不重新訓練模型的情況下提高公平性?」,應選「後處理 (Post-processing)」。

五、 演算法透明度與可解釋性 (XAI) 新增主題

可解釋人工智慧 (Explainable AI, XAI) 旨在讓人類理解模型決策的原因,解決「黑盒模型」的不透明問題。

5.1 透明度的三個層次

  • 演算法透明度: 了解演算法本身的邏輯(如決策樹如何分支)。
  • 可解釋性: 提供人類可理解的理由(例如:因為收入低於 X 萬所以拒貸)。
  • 可問責性: 當決策出錯時,能追溯責任並進行修正。

5.2 核心 XAI 技術分類

依據解釋的範圍與時機分類:

分類維度說明代表性方法
全局解釋 (Global)描述模型的整體行為邏輯。特徵重要性排名 (Feature Importance)
局部解釋 (Local)解釋特定某一筆資料為何被如此預測。LIMESHAP
事前解釋 (Ante-hoc)模型本身就具備可解釋性。線性回歸、決策樹、K-NN
事後解釋 (Post-hoc)對黑盒模型進行外掛解釋。SHAP, 特徵熱圖 (Saliency Maps)
LIME vs SHAP 之辨析:
  • LIME: 透過在該樣本周圍建立簡單的模型(如線性模型)來局部逼近。
  • SHAP: 基於博弈論的「夏普里值」,能提供特徵對預測貢獻的量化數值,具備更好的理論基礎。

六、 應試總結心法

© iPAS AI 應用規劃師應考筆記系列 | 本內容對應科目三「機器學習技術與應用」單元 6.2

Read More »

iPAS 數據隱私、安全與合規 (Privacy & Security) 深度筆記

 

機器學習治理 | 單元 6.1 核心主題解析

一、 PII 個人識別資訊 (Personally Identifiable Information) 必考分類

並非所有數據都敏感,考點在於區分「直接」與「間接」識別資訊。

1.1 直接識別資訊 (Direct Identifiers)

單獨即可明確辨識出特定個人的資訊。
例: 姓名、身分證字號、電子郵件地址、電話號碼。

1.2 準識別資訊 (Quasi-Identifiers)

單獨無法識別,但結合多個欄位後可識別出特定個人。
例: 出生日期、郵遞區號、職業、性別、國籍。

二、 去識別化基礎技術 (De-identification) 技術實作考點

為了在利用數據與保護隱私間取得平衡,需要進行去識別化處理。

技術說明範例
遮蔽 (Masking)將部分欄位改為特定符號。將身分證末三碼改為 ***。
泛化 (Generalization)將具體值轉為粗略的範圍。將年齡 23 歲改為「20-30 歲」。
分桶 (Bucketing)與泛化相似,將連續數值歸類。薪資 45,000 歸類為「40K-50K 區間」。
虛擬化/偽名化將真實姓名替換為無意義的代號。張三 → User_A001。
匿名化技術的侷限:

即便進行了匿名化,若遭受到「連結攻擊 (Linking Attack)」(將多個外部數據庫比對),仍有可能還原個人身份。因此,現代趨勢是採用「差分隱私」。

三、 數據隱私保護進階技術 新興趨勢

這些是治理章節中常見的專業術語,需理解其應用場景。

  • 差分隱私 (Differential Privacy): 在數據中加入「數學雜訊」。確保查詢結果不會透露單一數據點的存在,且不影響整體統計準確度。
  • 同態加密 (Homomorphic Encryption): 允許直接對「加密狀態」的資料進行運算,不需解密。運算結果解密後與原始資料運算結果一致。
  • 聯邦學習 (Federated Learning): 「資料不動、模型動」。各端點在本地訓練模型,僅將模型更新參數回傳雲端聚合,資料不出本地端。

四、 數據安全攻擊與防禦 資安必考

AI 模型本身也會受到攻擊,考生需分辨不同的攻擊手段。

攻擊名稱手法描述防禦策略
對抗式攻擊 (Adversarial)在輸入中加入微小雜訊,誘導模型誤判。對抗式訓練、增加數據多樣性。
模型反向攻擊 (Inversion)透過 API 查詢結果反推訓練資料內容。差分隱私、限制 API 查詢頻率。
中毒攻擊 (Poisoning)在訓練階段注入惡意資料,埋下後門。嚴格過濾訓練數據、來源驗證。

五、 國際隱私法規 (GDPR) 合規原則

雖然台灣有《個資法》,但 iPAS 通常參考歐盟 GDPR 作為基準。

5.1 核心原則

  • 被遺忘權: 用戶有權要求刪除與其相關的數據。
  • 資料可攜權: 用戶有權要求將數據轉移給其他服務商。
  • 隱私設計 (Privacy by Design): 系統開發初期就應將隱私考量納入設計流程。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 模型調整與優化 (Model Tuning) 深度筆記

 

機器學習技術與應用 | 單元 5.4 核心主題解析

一、 參數 vs. 超參數:誰來決定? 基本功

區分這兩者是理解模型優化的第一步。

類別定義例子決定者
參數 (Parameters)模型內部的配置,從資料中學習而得。神經網路權重、線性回歸係數。演算法/資料
超參數 (Hyperparameters)模型外部的設定,在訓練前手動指定。學習率、K-Fold 的 K、隱藏層數。工程師 (你)

二、 超參數調優方法 (Hyperparameter Tuning) 必考工具

如何在茫茫設定中找到最優組合?

  • 網格搜尋 (Grid Search): 窮舉所有可能的排列組合。
    缺點: 非常耗時(計算量隨參數增加呈指數成長)。
  • 隨機搜尋 (Random Search): 在參數空間隨機採樣。
    優點: 通常比網格搜尋更有效率,能更快發現重要的參數範圍。
  • 貝氏優化 (Bayesian Optimization): 根據先前的測試結果,預測下一組可能更好的參數。
    優點: 效率最高,適合計算昂貴的大型模型。

三、 解決過擬合 (Overfitting) 的實戰策略 應用大題

當訓練集效果很好,但測試集很差時(高變異),你該怎麼辦?

過擬合應對檢查表:
  • 資料層面: 增加訓練資料量 (More Data)、資料增強 (Data Augmentation)。
  • 模型層面: 降低模型複雜度(減少層數或神經元)、早停法 (Early Stopping)。
  • 技術層面: 使用正則化、Dropout、整合學習 (Ensemble Learning)。

四、 正則化技術 (Regularization) 數理邏輯

透過在損失函數中加入一個「懲罰項」,限制權重的大小,避免模型太「偏激」。

4.1 L1 正則化 (Lasso)

特性: 會將不重要的特徵權重變為 0

用途: 除了防過擬合,還兼具 「特徵選擇」 的功能。

4.2 L2 正則化 (Ridge)

特性: 會讓權重變小(趨近於 0),但不會等於 0。

用途: 使模型變得平滑,對所有特徵都有一定的保留,是目前最常用的正則化方式。

五、 深度學習特有優化技巧 工程實務

5.1 丟棄法 (Dropout)

訓練時隨機讓部分神經元「罷工」。這強迫模型不能過度依賴特定神經元,增加魯棒性 (Robustness)。

5.2 批次正規化 (Batch Normalization)

將每一層的輸出進行標準化。
好處: 加快收斂速度、穩定訓練過程、減少對初始值的敏感度。

5.3 早停法 (Early Stopping)

監控驗證集的損失。一旦驗證集損失開始上升(代表開始過擬合),就提前結束訓練。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 模型訓練、評估與驗證 (Training & Evaluation) 深度筆記

 

機器學習技術與應用 | 單元 5.3 核心主題解析

一、 資料集切分:三段論法 必考觀念

為了確保模型的泛化能力,我們不能在「看過」的資料上評估模型。

1.1 三大子集的功能

  • 訓練集 (Training Set): 用於調整模型權重(參數)。比例通常佔 70-80%。
  • 驗證集 (Validation Set): 用於 「超參數調優」 或模型選擇。它不參與訓練,但參與「決策」。
  • 測試集 (Test Set): 模型「期末考試」。完全獨立,用於衡量模型在真實世界的效能。
應試陷阱:

測試集絕對不能參與模型的訓練或參數選擇!如果測試集的結果反過來影響了參數調整,這稱為「資料洩露 (Data Leakage)」,會導致評估結果過於樂觀。

二、 驗證策略 (Validation Strategy) 方法論

當資料量不足或需要更穩定的評估時,必須使用特殊的驗證技巧。

2.1 K-折交叉驗證 (K-Fold Cross-Validation)

作法: 將資料均分為 K 份,輪流拿 1 份當驗證集、其餘 K-1 份當訓練集。最後取平均效能。

優點: 降低單次切分資料造成的隨機誤差,對小樣本特別有用。

2.2 分層採樣 (Stratified Sampling)

場景: 用於資料 「類別不平衡」 時。例如信用卡詐騙案件極少,分層採樣可確保訓練集與驗證集中的詐騙比例與原資料一致。

三、 分類模型評估指標 計算題重鎮

這是考試中最常出現計算題的地方,必須熟記混淆矩陣 (Confusion Matrix)。

指標公式白話解釋
準確率 (Accuracy)$(TP+TN) / Total$全部預測對的比例(資料不平衡時無效)。
精確率 (Precision)$TP / (TP+FP)$預測為真 裡面,有多少是真的?(別誤殺)
召回率 (Recall)$TP / (TP+FN)$實際上為真 裡面,有多少被抓出來?(別放過)
F1-Score$2 \times \frac{Pre \times Rec}{Pre + Rec}$精確與召回的「調和平均」,綜合評價。
ROC 曲線與 AUC 指標:
  • ROC: 橫軸是偽陽率 (FPR),縱軸是真陽率 (TPR)。
  • AUC: ROC 曲線下的面積。AUC = 1 是完美模型;AUC = 0.5 是隨機猜測。**AUC 的優點是不受分類閾值 (Threshold) 影響。**

四、 回歸模型評估指標 連續數值

當目標是連續數字(如房價)時,使用的指標與分類不同。

  • MAE (平均絕對誤差): 誤差的絕對值平均。直觀,對異常值較具容忍性。
  • MSE (均方誤差): 誤差平方的平均。**會放大大的誤差**,因此模型會對極端錯誤非常敏感。
  • RMSE (均方根誤差): MSE 開根號。單位與原資料一致,利於解讀。
  • $R^2$ (決定係數): 介於 0~1。代表模型能解釋目標變異的百分比。愈接近 1 愈好。

五、 模型穩定性與監控 進階治理

模型在線上運行一段時間後,效能會下降,這需要持續監控。

5.1 模型衰退與漂移 (Drift)

  • 概念漂移 (Concept Drift): 特徵與目標的關係變了(例如疫情後消費習慣改變)。
  • 數據漂移 (Data Drift): 輸入資料的分佈變了(例如新地區的用戶特徵與舊地區不同)。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 模型選擇與架構設計 (Model & Architecture) 深度筆記

 

機器學習技術與應用 | 單元 5.2 核心主題解析

一、 模型選擇的基本原則 規劃核心

模型選擇並非越複雜越好,而是要根據「資料量」、「問題類型」與「部署環境」來決定。

1.1 考量因素

  • 問題本質: 分類 (Classification)、回歸 (Regression) 還是分群 (Clustering)?
  • 資料量大小:
    • 資料少:選簡單模型(如線性回歸、SVM),避免過擬合。
    • 資料多:選深層網路(如 Transformer、CNN),提取複雜特徵。
  • 解釋性需求: 醫療、金融領域優先選「白箱模型」(如決策樹、邏輯回歸);純準確率導向選「黑箱模型」(如深度學習)。

二、 偏差與變異的權衡 (Bias-Variance Tradeoff) 必考原理

這是衡量模型效能最基礎的理論架構。

術語說明現象解決方案
高偏差 (High Bias)模型太簡單,沒學到資料規律。欠擬合 (Underfitting)增加特徵、增加模型複雜度。
高變異 (High Variance)模型太複雜,學到了雜訊。過擬合 (Overfitting)增加資料、正則化 (L1/L2)、Dropout。
奧卡姆剃刀原則 (Occam's Razor):

如果兩個模型具有相似的解釋能力(預測效果),應該選擇較簡單的那一個。簡單模型通常具有更好的泛化能力 (Generalization)。

三、 常用網路架構類型 技術選型

在設計 AI 系統時,必須了解不同架構的適用範疇。

3.1 卷積神經網路 (CNN)

特性: 具備卷積層與池化層,擁有「平移不變性」。

場景: 電腦視覺 (CV)、影像分類、物件偵測。

3.2 循環神經網路 (RNN / LSTM)

特性: 具備記憶性,處理序列資料。

場景: 時間序列預測、語音辨識(雖然目前多被 Transformer 取代)。

3.3 Transformer 架構

特性: 注意力機制 (Attention)。平行運算能力強,處理長距離依賴效果好。

場景: 自然語言處理 (NLP)、大語言模型 (LLM)。

四、 模型架構優化技術 效能調整

如何在保持準確率的同時,讓模型更快、更輕量?

  • 超參數調優 (Hyperparameter Tuning):
    手動調整學習率 (Learning Rate)、批次大小 (Batch Size)、層數。
    方法: 網格搜尋 (Grid Search)、隨機搜尋 (Random Search)。
  • 模型壓縮 (Compression):
    • 權重剪枝 (Pruning): 移除影響小的神經元權重。
    • 量化 (Quantization): 將 32-bit 浮點數轉為 8-bit 整數,加速推論。
    • 知識蒸餾 (Distillation): 大模型 (Teacher) 指導小模型 (Student)。

五、 部署考量:雲端 vs. 邊緣 (Edge) 應用規劃

架構設計必須考慮推理 (Inference) 的執行位置。

部署位置優點缺點適用情境
雲端 (Cloud)運算力強、可處理複雜大模型。依賴網路、延遲高、隱私疑慮。大數據分析、生成式 AI。
邊緣 (Edge)低延遲、省頻寬、資料不出在地。運算資源有限(記憶體/功耗)。自駕車、工廠設備監控。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 數據準備與特徵工程 (Feature Engineering) 深度筆記

 

機器學習技術與應用 | 單元 5.1 核心主題解析

一、 資料清理:垃圾進,垃圾出 (GIGO) 基本原則

資料清理是整個機器學習流程中耗時最長(約 70-80%)但最重要的步驟。

1.1 主要任務

  • 重複值處理: 刪除重複的紀錄,避免模型給予特定樣本過高權重。
  • 異常值偵測 (Outlier Detection): 識別並處理極端錯誤數據。
    • 方法:3倍標準差、IQR (四分位距法)、箱型圖視覺化。
  • 一致性檢查: 確保單位(米 vs 公分)、日期格式、類別名稱統一。

二、 缺失值處理技術 (Imputation) 高頻考點

實務資料常有缺漏,處理方式會直接影響模型穩定性。

處理策略適用場景優缺點
直接刪除 (Deletion)缺失比例極低(< 5%)。最簡單,但可能遺失重要資訊。
均值/中位數插補數值型資料、分佈較均勻。簡單快,但會低估數據變異。
眾數插補類別型資料保留類別特性,但易產生偏誤。
模型插補 (K-NN/Iterative)缺失具相關性。準確度高,但計算成本大。
考點提示:

並非所有缺失都應插補。有時缺失本身就是一個「特徵」(例如:未填寫信用卡額度可能代表該客戶沒有信用卡),此時可將缺失值標記為一個獨立的類別(如 "Unknown")。

三、 類別資料編碼 (Encoding) 轉換邏輯

機器學習模型只能理解「數字」,因此文字類別必須轉換。

  • 標籤編碼 (Label Encoding):
    將類別轉為 0, 1, 2...。
    限制: 適合有「順序性」的資料(如:小、中、大)。若用於無順序資料(如:紅、藍),模型會誤以為「藍(1) > 紅(0)」。
  • 獨熱編碼 (One-Hot Encoding):
    為每個類別建立新欄位。
    限制: 類別太多時會導致「維度災難」,造成矩陣極度稀疏。

四、 特徵縮放 (Scaling) 與 數據轉換 必考原理

不同特徵的單位(量綱)差異過大時,會導致模型訓練困難。

技術名稱公式邏輯特性與建議
最小最大縮放 (Min-Max)$(x-min)/(max-min)$將資料壓縮至 [0, 1]。對異常值極敏感
標準化 (Standardization)$(x-\mu)/\sigma$轉為平均 0、標準差 1。適用於梯度下降與 SVM。
對數轉換 (Log Transform)$log(x)$處理 「長尾分佈」,使其趨近常態分佈。
為什麼要縮放?

若特徵 A 範圍是 0-10000,特徵 B 是 0-1。在計算「距離」(如 KNN)或進行「梯度下降」時,特徵 A 會主導整個權重更新,導致模型無法學習特徵 B 的細微變化。

五、 特徵選擇與降維 效能優化

過多的特徵會導致模型過擬合且訓練慢,必須進行精簡。

5.1 三大特徵選擇法

  • 過濾法 (Filter): 透過統計指標(如相關係數、卡方檢定)。速度最快,與模型無關。
  • 包裹法 (Wrapper): 使用特定模型不斷試錯(如遞歸特徵消除 RFE)。準確但計算極慢。
  • 嵌入法 (Embedded): 訓練時自動篩選。典型例子:L1 正則化 (Lasso)

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 深度學習原理與框架 (Deep Learning) 深度筆記

 

機器學習技術與應用 | 單元 4.3 核心主題解析

一、 神經網路基礎組件 必考核心

深度學習是受生物神經系統啟發的分層結構,其核心在於「權重學習」。

1.1 基本架構

  • 輸入層 (Input Layer): 接收特徵向量(如影像像素)。
  • 隱藏層 (Hidden Layers): 多層結構。層數越多,模型越「深」,能學習越複雜的非線性特徵。
  • 輸出層 (Output Layer): 產生最後預測(如分類標籤)。
  • 權重 (Weights) 與 偏差 (Bias): 模型要調整的參數。
全連接層 (Fully Connected Layer, FC):

每一層的每個神經元都與下一層的所有神經元連接。參數數量多,容易過擬合。在卷積神經網路 (CNN) 中,FC 通常放在網路末端進行最後的決策。

二、 反向傳播與自動微分 計算原理

神經網路如何「學習」?答案是靠梯度下降與反向傳播 (Backpropagation)。

2.1 反向傳播流程

  1. 前向傳播 (Forward Pass): 輸入進入網路,計算預測值與損失函數 (Loss)。
  2. 計算梯度: 利用 連鎖律 (Chain Rule),從輸出層往輸入層方向,計算 Loss 對每個權重的偏微分。
  3. 更新權重: 根據梯度方向微調參數,減少誤差。
梯度消失 (Vanishing Gradient) 問題:

當層數太深,且使用 Sigmoid 等函數時,梯度在連鎖律相乘過程中會趨近於 0,導致前面幾層學不動。這是推動 ReLU 函數 普及的主因。

三、 常用激發函數 (Activation Functions)

激發函數賦予了神經網路「非線性」表達能力,否則再多層疊加也只是線性組合。

名稱公式特性應用場景優缺點
Sigmoid輸出 [0, 1]二元分類輸出層。易產生梯度消失。
Tanh輸出 [-1, 1]隱藏層(中心點為 0)。效果優於 Sigmoid,但仍有梯度消失風險。
ReLU$max(0, x)$隱藏層主流首選計算快、減緩梯度消失。有 "Dead ReLU" 問題。
Softmax總和為 1多分類輸出層將輸出轉為機率分佈。

四、 深度學習框架比較 工程實務

規劃 AI 應用時,選擇合適的開發工具至關重要。

4.1 主流框架對照

  • TensorFlow (Google):
    • 優點:生態系完整、部屬工具 (TF Serving, TF Lite) 強大。
    • 特色:早期為靜態圖 (Static Graph),現已支援動態。
  • PyTorch (Meta):
    • 優點:語法 Pythonic、**動態圖 (Dynamic Graph)** 易於偵錯、學術界主流。
    • 特色:靈活性高,適合快速原型開發。
  • Keras: 高階 API(可運行於 TF 之上),極度簡化模型搭建流程,適合初學者。

五、 硬體加速與計算資源

深度學習需要龐大的張量運算量,傳統 CPU 已無法應付。

硬體類型全名定位與特色
CPU中央處理器處理複雜邏輯,不擅長大規模平行運算。
GPU圖形處理器深度學習主力。擁有數千核心,極擅長矩陣平行計算。
TPU張量處理器Google 專為機器學習設計的 ASIC。在雲端大規模訓練效率極高。
NPU/Edge AI神經處理器專為「推論」設計,低功耗,常用於手機或邊緣裝置。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »
>