iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

人工智慧技術應用規劃 | 單元 5.1 核心主題解析

快速導覽：

1. 資料清洗與預處理技術
2. 特徵工程 (Feature Engineering)
3. 資料增強與採樣策略
4. 模型選擇的決策邏輯
5. 學習任務與指標對齊

一、資料清洗與預處理技術必考基礎

「垃圾進，垃圾出 (GIGO)」是 AI 核心鐵律。資料預處理是為了將原始數據轉化為機器能理解的數學形式。

常見資料處理手法：

處理類型	技術名稱	說明
缺失值處理	插補法 (Imputation)	使用平均數、中位數或眾數填補缺失欄位。
量綱統一	標準化 (Standardization)	將數據縮放至均值為 0、標準差為 1 (Z-Score)。
量綱統一	歸一化 (Normalization)	將數據縮放至 [0, 1] 區間 (Min-Max)。
類型轉換	獨熱編碼 (One-Hot Encoding)	將類別型資料轉為 0 與 1 的向量（避免數值大小誤導）。

二、特徵工程 (Feature Engineering)

特徵工程是提升模型效能最有效的方法。它包含特徵的創造、提取與選擇。

特徵提取 (Extraction)： 從原始資料提取有用資訊（如從生日計算年齡）。
特徵選擇 (Selection)： 移除無關或冗餘的特徵，減少運算量。
降維 (Dimension Reduction)： 使用 PCA (主成分分析) 將高維資料投影至低維空間，保留最大變異量。

三、資料增強與採樣策略

當面臨資料不足或類別不平衡 (Imbalance) 時使用的技術。

3.1 資料增強 (Data Augmentation)

主要應用於影像與語音：旋轉、翻轉、縮放、裁切、增加噪聲。目的在於提升模型的 泛化能力 (Generalization)。

類別不平衡處理：

過採樣 (Oversampling)： 增加少數類別的樣本（如 SMOTE 演算法）。
欠採樣 (Undersampling)： 減少多數類別的樣本（易丟失資訊）。

四、模型選擇的決策邏輯情境題核心

模型選擇需在「複雜度」、「資料量」與「資源」之間取得平衡。

4.1 任務類型分類

回歸任務 (Regression)： 預測連續數值（如房價、氣溫）。
分類任務 (Classification)： 預測離散標籤（如垃圾郵件判定、腫瘤辨識）。
分群任務 (Clustering)： 無標籤資料自動分組（如客群分眾）。
生成任務 (Generation)： 產生新內容（如文字摘要、圖像生成）。

選擇原則：

小數據集： 優先考慮統計模型、決策樹、隨機森林。
大數據集/非結構化資料： 優先考慮深度學習 (CNN, RNN, Transformer)。
可解釋性需求： 選擇線性回歸、邏輯回歸、決策樹。

五、學習任務與指標對齊

在規劃階段，必須明確模型要最佳化的指標是什麼。

學習範式	說明	代表演算法
監督式學習	有標籤 (Label)，明確對錯。	線性回歸、SVM、神經網路
無監督式學習	無標籤，找出資料結構。	K-Means、PCA、關聯規則
強化學習	透過環境回饋 (Reward) 學習策略。	Q-Learning、DQN

🚩 考前速記口訣

🔸 數據處理： 缺了就插、大了就縮、雜了就清、類別 One-Hot。
🔸 特徵工程： PCA 降維減負擔，特徵創造靠靈感。
🔸 不平衡： 少類加、多類減、SMOTE 造出新夥伴。
🔸 模型選擇： 數值找回歸、類別找分類、沒標找分群。
🔸 大數據： 深度學習顯神威；小數據： 傳統模型不掉隊。

商帖小記 SomeTips

iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

一、資料清洗與預處理技術必考基礎

二、特徵工程 (Feature Engineering)

三、資料增強與採樣策略

3.1 資料增強 (Data Augmentation)

四、模型選擇的決策邏輯情境題核心

4.1 任務類型分類

五、學習任務與指標對齊

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 數據準備與模型選擇 (Data Prep & Selection) 深度筆記

一、 資料清洗與預處理技術 必考基礎

二、 特徵工程 (Feature Engineering)

三、 資料增強與採樣策略

3.1 資料增強 (Data Augmentation)

四、 模型選擇的決策邏輯 情境題核心

4.1 任務類型分類

五、 學習任務與指標對齊

🚩 考前速記口訣

沒有留言:

張貼留言

一、資料清洗與預處理技術必考基礎

二、特徵工程 (Feature Engineering)

三、資料增強與採樣策略

四、模型選擇的決策邏輯情境題核心

五、學習任務與指標對齊