iPAS 數據隱私、安全與合規 (Privacy & Security) 深度筆記

 

機器學習治理 | 單元 6.1 核心主題解析

一、 PII 個人識別資訊 (Personally Identifiable Information) 必考分類

並非所有數據都敏感,考點在於區分「直接」與「間接」識別資訊。

1.1 直接識別資訊 (Direct Identifiers)

單獨即可明確辨識出特定個人的資訊。
例: 姓名、身分證字號、電子郵件地址、電話號碼。

1.2 準識別資訊 (Quasi-Identifiers)

單獨無法識別,但結合多個欄位後可識別出特定個人。
例: 出生日期、郵遞區號、職業、性別、國籍。

二、 去識別化基礎技術 (De-identification) 技術實作考點

為了在利用數據與保護隱私間取得平衡,需要進行去識別化處理。

技術說明範例
遮蔽 (Masking)將部分欄位改為特定符號。將身分證末三碼改為 ***。
泛化 (Generalization)將具體值轉為粗略的範圍。將年齡 23 歲改為「20-30 歲」。
分桶 (Bucketing)與泛化相似,將連續數值歸類。薪資 45,000 歸類為「40K-50K 區間」。
虛擬化/偽名化將真實姓名替換為無意義的代號。張三 → User_A001。
匿名化技術的侷限:

即便進行了匿名化,若遭受到「連結攻擊 (Linking Attack)」(將多個外部數據庫比對),仍有可能還原個人身份。因此,現代趨勢是採用「差分隱私」。

三、 數據隱私保護進階技術 新興趨勢

這些是治理章節中常見的專業術語,需理解其應用場景。

  • 差分隱私 (Differential Privacy): 在數據中加入「數學雜訊」。確保查詢結果不會透露單一數據點的存在,且不影響整體統計準確度。
  • 同態加密 (Homomorphic Encryption): 允許直接對「加密狀態」的資料進行運算,不需解密。運算結果解密後與原始資料運算結果一致。
  • 聯邦學習 (Federated Learning): 「資料不動、模型動」。各端點在本地訓練模型,僅將模型更新參數回傳雲端聚合,資料不出本地端。

四、 數據安全攻擊與防禦 資安必考

AI 模型本身也會受到攻擊,考生需分辨不同的攻擊手段。

攻擊名稱手法描述防禦策略
對抗式攻擊 (Adversarial)在輸入中加入微小雜訊,誘導模型誤判。對抗式訓練、增加數據多樣性。
模型反向攻擊 (Inversion)透過 API 查詢結果反推訓練資料內容。差分隱私、限制 API 查詢頻率。
中毒攻擊 (Poisoning)在訓練階段注入惡意資料,埋下後門。嚴格過濾訓練數據、來源驗證。

五、 國際隱私法規 (GDPR) 合規原則

雖然台灣有《個資法》,但 iPAS 通常參考歐盟 GDPR 作為基準。

5.1 核心原則

  • 被遺忘權: 用戶有權要求刪除與其相關的數據。
  • 資料可攜權: 用戶有權要求將數據轉移給其他服務商。
  • 隱私設計 (Privacy by Design): 系統開發初期就應將隱私考量納入設計流程。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

沒有留言:

張貼留言

>