商帖小記 SomeTips: 04/08/26

iPAS 數據隱私、安全與合規 (Privacy & Security) 深度筆記

機器學習治理 | 單元 6.1 核心主題解析

快速導覽：

1. PII 個人識別資訊定義
2. 去識別化基礎技術
3. 數據隱私保護進階技術
4. 數據安全攻擊與防禦
5. 國際隱私法規 (GDPR)

一、 PII 個人識別資訊 (Personally Identifiable Information) 必考分類

並非所有數據都敏感，考點在於區分「直接」與「間接」識別資訊。

1.1 直接識別資訊 (Direct Identifiers)

單獨即可明確辨識出特定個人的資訊。
例：姓名、身分證字號、電子郵件地址、電話號碼。

1.2 準識別資訊 (Quasi-Identifiers)

單獨無法識別，但結合多個欄位後可識別出特定個人。
例：出生日期、郵遞區號、職業、性別、國籍。

二、去識別化基礎技術 (De-identification) 技術實作考點

為了在利用數據與保護隱私間取得平衡，需要進行去識別化處理。

技術	說明	範例
遮蔽 (Masking)	將部分欄位改為特定符號。	將身分證末三碼改為 ***。
泛化 (Generalization)	將具體值轉為粗略的範圍。	將年齡 23 歲改為「20-30 歲」。
分桶 (Bucketing)	與泛化相似，將連續數值歸類。	薪資 45,000 歸類為「40K-50K 區間」。
虛擬化/偽名化	將真實姓名替換為無意義的代號。	張三 → User_A001。

匿名化技術的侷限：

即便進行了匿名化，若遭受到「連結攻擊 (Linking Attack)」（將多個外部數據庫比對），仍有可能還原個人身份。因此，現代趨勢是採用「差分隱私」。

三、數據隱私保護進階技術新興趨勢

這些是治理章節中常見的專業術語，需理解其應用場景。

差分隱私 (Differential Privacy)： 在數據中加入「數學雜訊」。確保查詢結果不會透露單一數據點的存在，且不影響整體統計準確度。
同態加密 (Homomorphic Encryption)： 允許直接對「加密狀態」的資料進行運算，不需解密。運算結果解密後與原始資料運算結果一致。
聯邦學習 (Federated Learning)： 「資料不動、模型動」。各端點在本地訓練模型，僅將模型更新參數回傳雲端聚合，資料不出本地端。

四、數據安全攻擊與防禦資安必考

AI 模型本身也會受到攻擊，考生需分辨不同的攻擊手段。

攻擊名稱	手法描述	防禦策略
對抗式攻擊 (Adversarial)	在輸入中加入微小雜訊，誘導模型誤判。	對抗式訓練、增加數據多樣性。
模型反向攻擊 (Inversion)	透過 API 查詢結果反推訓練資料內容。	差分隱私、限制 API 查詢頻率。
中毒攻擊 (Poisoning)	在訓練階段注入惡意資料，埋下後門。	嚴格過濾訓練數據、來源驗證。

五、國際隱私法規 (GDPR) 合規原則

雖然台灣有《個資法》，但 iPAS 通常參考歐盟 GDPR 作為基準。

5.1 核心原則

被遺忘權： 用戶有權要求刪除與其相關的數據。
資料可攜權： 用戶有權要求將數據轉移給其他服務商。
隱私設計 (Privacy by Design)： 系統開發初期就應將隱私考量納入設計流程。

🚩 考前速記口訣

🔸 識別分兩種： 姓名信箱直接認，年齡郵遞要併用（準識別）。
🔸 遮蔽泛化桶： 末碼打星叫遮蔽，範圍表達叫泛化，級距歸類叫分桶。
🔸 進階隱私： 差分加雜訊，同態做加密（不解密），聯邦保本地。
🔸 資安三威脅： 對抗誤判、反向竊資、中毒埋後門。
🔸 法規 GDPR： 被遺忘、可攜帶、預設即隱私。

訂閱：文章 (Atom)