iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

 

iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

人工智慧技術應用規劃 | 單元 5.1 核心主題解析

一、 資料清洗與預處理技術 必考基礎

「垃圾進,垃圾出 (GIGO)」是 AI 核心鐵律。資料預處理是為了將原始數據轉化為機器能理解的數學形式。

常見資料處理手法:
處理類型技術名稱說明
缺失值處理插補法 (Imputation)使用平均數、中位數或眾數填補缺失欄位。
量綱統一標準化 (Standardization)將數據縮放至均值為 0、標準差為 1 (Z-Score)。
量綱統一歸一化 (Normalization)將數據縮放至 [0, 1] 區間 (Min-Max)。
類型轉換獨熱編碼 (One-Hot Encoding)將類別型資料轉為 0 與 1 的向量(避免數值大小誤導)。

二、 特徵工程 (Feature Engineering)

特徵工程是提升模型效能最有效的方法。它包含特徵的創造、提取與選擇。

  • 特徵提取 (Extraction): 從原始資料提取有用資訊(如從生日計算年齡)。
  • 特徵選擇 (Selection): 移除無關或冗餘的特徵,減少運算量。
  • 降維 (Dimension Reduction): 使用 PCA (主成分分析) 將高維資料投影至低維空間,保留最大變異量。

三、 資料增強與採樣策略

當面臨資料不足或類別不平衡 (Imbalance) 時使用的技術。

3.1 資料增強 (Data Augmentation)

主要應用於影像與語音:旋轉、翻轉、縮放、裁切、增加噪聲。目的在於提升模型的 泛化能力 (Generalization)

類別不平衡處理:
  • 過採樣 (Oversampling): 增加少數類別的樣本(如 SMOTE 演算法)。
  • 欠採樣 (Undersampling): 減少多數類別的樣本(易丟失資訊)。

四、 模型選擇的決策邏輯 情境題核心

模型選擇需在「複雜度」、「資料量」與「資源」之間取得平衡。

4.1 任務類型分類

  • 回歸任務 (Regression): 預測連續數值(如房價、氣溫)。
  • 分類任務 (Classification): 預測離散標籤(如垃圾郵件判定、腫瘤辨識)。
  • 分群任務 (Clustering): 無標籤資料自動分組(如客群分眾)。
  • 生成任務 (Generation): 產生新內容(如文字摘要、圖像生成)。
選擇原則:
  • 小數據集: 優先考慮統計模型、決策樹、隨機森林。
  • 大數據集/非結構化資料: 優先考慮深度學習 (CNN, RNN, Transformer)。
  • 可解釋性需求: 選擇線性回歸、邏輯回歸、決策樹。

五、 學習任務與指標對齊

在規劃階段,必須明確模型要最佳化的指標是什麼。

學習範式說明代表演算法
監督式學習有標籤 (Label),明確對錯。線性回歸、SVM、神經網路
無監督式學習無標籤,找出資料結構。K-Means、PCA、關聯規則
強化學習透過環境回饋 (Reward) 學習策略。Q-Learning、DQN

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

沒有留言:

張貼留言

>