機器學習治理 | 單元 6.1 核心主題解析
一、 PII 個人識別資訊 (Personally Identifiable Information) 必考分類
並非所有數據都敏感,考點在於區分「直接」與「間接」識別資訊。
1.1 直接識別資訊 (Direct Identifiers)
單獨即可明確辨識出特定個人的資訊。
例: 姓名、身分證字號、電子郵件地址、電話號碼。
1.2 準識別資訊 (Quasi-Identifiers)
單獨無法識別,但結合多個欄位後可識別出特定個人。
例: 出生日期、郵遞區號、職業、性別、國籍。
二、 去識別化基礎技術 (De-identification) 技術實作考點
為了在利用數據與保護隱私間取得平衡,需要進行去識別化處理。
| 技術 | 說明 | 範例 |
|---|---|---|
| 遮蔽 (Masking) | 將部分欄位改為特定符號。 | 將身分證末三碼改為 ***。 |
| 泛化 (Generalization) | 將具體值轉為粗略的範圍。 | 將年齡 23 歲改為「20-30 歲」。 |
| 分桶 (Bucketing) | 與泛化相似,將連續數值歸類。 | 薪資 45,000 歸類為「40K-50K 區間」。 |
| 虛擬化/偽名化 | 將真實姓名替換為無意義的代號。 | 張三 → User_A001。 |
匿名化技術的侷限:
即便進行了匿名化,若遭受到「連結攻擊 (Linking Attack)」(將多個外部數據庫比對),仍有可能還原個人身份。因此,現代趨勢是採用「差分隱私」。
三、 數據隱私保護進階技術 新興趨勢
這些是治理章節中常見的專業術語,需理解其應用場景。
- 差分隱私 (Differential Privacy): 在數據中加入「數學雜訊」。確保查詢結果不會透露單一數據點的存在,且不影響整體統計準確度。
- 同態加密 (Homomorphic Encryption): 允許直接對「加密狀態」的資料進行運算,不需解密。運算結果解密後與原始資料運算結果一致。
- 聯邦學習 (Federated Learning): 「資料不動、模型動」。各端點在本地訓練模型,僅將模型更新參數回傳雲端聚合,資料不出本地端。
四、 數據安全攻擊與防禦 資安必考
AI 模型本身也會受到攻擊,考生需分辨不同的攻擊手段。
| 攻擊名稱 | 手法描述 | 防禦策略 |
|---|---|---|
| 對抗式攻擊 (Adversarial) | 在輸入中加入微小雜訊,誘導模型誤判。 | 對抗式訓練、增加數據多樣性。 |
| 模型反向攻擊 (Inversion) | 透過 API 查詢結果反推訓練資料內容。 | 差分隱私、限制 API 查詢頻率。 |
| 中毒攻擊 (Poisoning) | 在訓練階段注入惡意資料,埋下後門。 | 嚴格過濾訓練數據、來源驗證。 |
五、 國際隱私法規 (GDPR) 合規原則
雖然台灣有《個資法》,但 iPAS 通常參考歐盟 GDPR 作為基準。
5.1 核心原則
- 被遺忘權: 用戶有權要求刪除與其相關的數據。
- 資料可攜權: 用戶有權要求將數據轉移給其他服務商。
- 隱私設計 (Privacy by Design): 系統開發初期就應將隱私考量納入設計流程。