iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

 

機器學習技術與應用 | 單元 4.2 核心主題解析

一、 線性模型:統計學的基石 必考指標

線性模型是解釋性最強的模型,也是處理結構化資料的首選入門方法。

1.1 線性回歸 (Linear Regression)

原理: 尋找一條直線 $y = wx + b$,最小化預測值與實際值的殘差平方和 (MSE)。

限制: 假設資料呈線性關係,對異常值 (Outliers) 敏感。

1.2 邏輯回歸 (Logistic Regression)

原理: 雖名為回歸,實則用於 「分類」。透過 Sigmoid 函數將線性輸出映射到 [0, 1] 之間,代表機率。

優點: 運算快、輸出具機率意義、模型參數具解釋性。

二、 決策樹與集成學習 (Ensemble Learning) 高頻考點

這是目前實務上處理「表格資料 (Tabular Data)」效能最強大的家族。

核心概念對照:
技術說明核心機制
決策樹 (Decision Tree)透過資訊增益 (Information Gain) 或 Gini 指數切割資料。易過擬合,解釋性極佳。
隨機森林 (Random Forest)Bagging 策略。並行訓練多棵樹,最後投票決定。降低變異 (Variance),防止過擬合。
提升法 (Boosting)串行訓練。後一棵樹學習前一棵樹的 殘差 (Error)如 XGBoost, LightGBM, CatBoost。

三、 支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

原理: 尋找一個超平面 (Hyperplane),使兩類資料間的 間隔 (Margin) 最大化

關鍵字: 核函數 (Kernel Trick) — 將低維不可分資料投射到高維空間。適合小樣本、高維度資料。

3.2 K-近鄰演算法 (KNN)

原理: 惰性學習 (Lazy Learning)。預測時計算與鄰居的距離(如歐式距離),「近朱者赤」。

缺點: 計算量隨資料量增加而劇增,且受特徵量綱(單位)影響大(需做正規化)。

四、 無監督學習:分群與降維 探索性分析

當資料沒有標籤 (Label) 時使用的演算法。

K-Means 分群:
  1. 隨機初始化 K 個中心點。
  2. 將每個點分配給最近的中心。
  3. 重新計算中心點位置,直到收斂。

※ 注意:需事先指定 K 值,且對初始值敏感(常使用 K-Means++ 改善)。

4.2 主成分分析 (PCA)

原理: 線性降維。尋找資料變異最大的方向,將高維資料投影過去。目的:減少特徵數、去除雜訊、資料視覺化。

五、 演算法選擇情境對照表 決策必讀

應用情境建議演算法關鍵原因
預測房價、氣溫線性回歸、XGBoost (Regression)預測連續數值。
垃圾郵件、腫瘤辨識邏輯回歸、隨機森林、SVM二元分類任務。
電商客戶分眾K-Means, 層次聚類探索隱藏群體。
手寫文字、高維影像深度學習 (CNN)、SVM (Kernel)特徵極度複雜且非線性。
表格資料且求極致準度XGBoost / LightGBMBoosting 家族在結構化資料表現最優。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

沒有留言:

張貼留言

>