iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記
人工智慧技術應用規劃 | 單元 5.1 核心主題解析
一、 資料清洗與預處理技術 必考基礎
「垃圾進,垃圾出 (GIGO)」是 AI 核心鐵律。資料預處理是為了將原始數據轉化為機器能理解的數學形式。
常見資料處理手法:
| 處理類型 | 技術名稱 | 說明 |
|---|---|---|
| 缺失值處理 | 插補法 (Imputation) | 使用平均數、中位數或眾數填補缺失欄位。 |
| 量綱統一 | 標準化 (Standardization) | 將數據縮放至均值為 0、標準差為 1 (Z-Score)。 |
| 量綱統一 | 歸一化 (Normalization) | 將數據縮放至 [0, 1] 區間 (Min-Max)。 |
| 類型轉換 | 獨熱編碼 (One-Hot Encoding) | 將類別型資料轉為 0 與 1 的向量(避免數值大小誤導)。 |
二、 特徵工程 (Feature Engineering)
特徵工程是提升模型效能最有效的方法。它包含特徵的創造、提取與選擇。
- 特徵提取 (Extraction): 從原始資料提取有用資訊(如從生日計算年齡)。
- 特徵選擇 (Selection): 移除無關或冗餘的特徵,減少運算量。
- 降維 (Dimension Reduction): 使用 PCA (主成分分析) 將高維資料投影至低維空間,保留最大變異量。
三、 資料增強與採樣策略
當面臨資料不足或類別不平衡 (Imbalance) 時使用的技術。
3.1 資料增強 (Data Augmentation)
主要應用於影像與語音:旋轉、翻轉、縮放、裁切、增加噪聲。目的在於提升模型的 泛化能力 (Generalization)。
類別不平衡處理:
- 過採樣 (Oversampling): 增加少數類別的樣本(如 SMOTE 演算法)。
- 欠採樣 (Undersampling): 減少多數類別的樣本(易丟失資訊)。
四、 模型選擇的決策邏輯 情境題核心
模型選擇需在「複雜度」、「資料量」與「資源」之間取得平衡。
4.1 任務類型分類
- 回歸任務 (Regression): 預測連續數值(如房價、氣溫)。
- 分類任務 (Classification): 預測離散標籤(如垃圾郵件判定、腫瘤辨識)。
- 分群任務 (Clustering): 無標籤資料自動分組(如客群分眾)。
- 生成任務 (Generation): 產生新內容(如文字摘要、圖像生成)。
選擇原則:
- 小數據集: 優先考慮統計模型、決策樹、隨機森林。
- 大數據集/非結構化資料: 優先考慮深度學習 (CNN, RNN, Transformer)。
- 可解釋性需求: 選擇線性回歸、邏輯回歸、決策樹。
五、 學習任務與指標對齊
在規劃階段,必須明確模型要最佳化的指標是什麼。
| 學習範式 | 說明 | 代表演算法 |
|---|---|---|
| 監督式學習 | 有標籤 (Label),明確對錯。 | 線性回歸、SVM、神經網路 |
| 無監督式學習 | 無標籤,找出資料結構。 | K-Means、PCA、關聯規則 |
| 強化學習 | 透過環境回饋 (Reward) 學習策略。 | Q-Learning、DQN |
沒有留言:
張貼留言