商帖小記 SomeTips: iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

機器學習技術與應用 | 單元 4.2 核心主題解析

快速導覽：

1. 線性模型 (Regression & Classification)
2. 決策樹與集成學習 (Tree & Ensemble)
3. 向量機與鄰近演算法 (SVM & KNN)
4. 無監督學習：分群與降維
5. 演算法選擇情境對照表

一、線性模型：統計學的基石必考指標

線性模型是解釋性最強的模型，也是處理結構化資料的首選入門方法。

1.1 線性回歸 (Linear Regression)

原理： 尋找一條直線 $y = wx + b$，最小化預測值與實際值的殘差平方和 (MSE)。

限制： 假設資料呈線性關係，對異常值 (Outliers) 敏感。

1.2 邏輯回歸 (Logistic Regression)

原理： 雖名為回歸，實則用於 「分類」。透過 Sigmoid 函數將線性輸出映射到 [0, 1] 之間，代表機率。

優點： 運算快、輸出具機率意義、模型參數具解釋性。

二、決策樹與集成學習 (Ensemble Learning) 高頻考點

這是目前實務上處理「表格資料 (Tabular Data)」效能最強大的家族。

核心概念對照：

技術	說明	核心機制
決策樹 (Decision Tree)	透過資訊增益 (Information Gain) 或 Gini 指數切割資料。	易過擬合，解釋性極佳。
隨機森林 (Random Forest)	Bagging 策略。並行訓練多棵樹，最後投票決定。	降低變異 (Variance)，防止過擬合。
提升法 (Boosting)	串行訓練。後一棵樹學習前一棵樹的殘差 (Error)。	如 XGBoost, LightGBM, CatBoost。

三、支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

原理： 尋找一個超平面 (Hyperplane)，使兩類資料間的 間隔 (Margin) 最大化。

關鍵字： 核函數 (Kernel Trick) — 將低維不可分資料投射到高維空間。適合小樣本、高維度資料。

3.2 K-近鄰演算法 (KNN)

原理： 惰性學習 (Lazy Learning)。預測時計算與鄰居的距離（如歐式距離），「近朱者赤」。

缺點： 計算量隨資料量增加而劇增，且受特徵量綱（單位）影響大（需做正規化）。

四、無監督學習：分群與降維探索性分析

當資料沒有標籤 (Label) 時使用的演算法。

K-Means 分群：

隨機初始化 K 個中心點。
將每個點分配給最近的中心。
重新計算中心點位置，直到收斂。

※ 注意：需事先指定 K 值，且對初始值敏感（常使用 K-Means++ 改善）。

4.2 主成分分析 (PCA)

原理： 線性降維。尋找資料變異最大的方向，將高維資料投影過去。目的：減少特徵數、去除雜訊、資料視覺化。

五、演算法選擇情境對照表決策必讀

應用情境	建議演算法	關鍵原因
預測房價、氣溫	線性回歸、XGBoost (Regression)	預測連續數值。
垃圾郵件、腫瘤辨識	邏輯回歸、隨機森林、SVM	二元分類任務。
電商客戶分眾	K-Means, 層次聚類	探索隱藏群體。
手寫文字、高維影像	深度學習 (CNN)、SVM (Kernel)	特徵極度複雜且非線性。
表格資料且求極致準度	XGBoost / LightGBM	Boosting 家族在結構化資料表現最優。

🚩 考前速記口訣

🔸 線性回歸： 直線擬合預測數值，怕極端值愛線性。
🔸 邏輯回歸： 名字騙人實分類，機率輸出好解釋。
🔸 隨機森林： 森林投票防過擬，平行訓練效率高。
🔸 XGBoost： 一棵補一棵殘差，當今表格最強者。
🔸 SVM： 間隔最大超平面，核函數投射高維。
🔸 KNN： 隔壁鄰居誰最多，算距離前要縮放。
🔸 K-Means： 找中心分群組，K 值多少要先說。

商帖小記 SomeTips

iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

一、線性模型：統計學的基石必考指標

1.1 線性回歸 (Linear Regression)

1.2 邏輯回歸 (Logistic Regression)

二、決策樹與集成學習 (Ensemble Learning) 高頻考點

三、支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

3.2 K-近鄰演算法 (KNN)

四、無監督學習：分群與降維探索性分析

4.2 主成分分析 (PCA)

五、演算法選擇情境對照表決策必讀

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

一、 線性模型：統計學的基石 必考指標

1.1 線性回歸 (Linear Regression)

1.2 邏輯回歸 (Logistic Regression)

二、 決策樹與集成學習 (Ensemble Learning) 高頻考點

三、 支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

3.2 K-近鄰演算法 (KNN)

四、 無監督學習：分群與降維 探索性分析

4.2 主成分分析 (PCA)

五、 演算法選擇情境對照表 決策必讀

🚩 考前速記口訣

沒有留言:

張貼留言

一、線性模型：統計學的基石必考指標

二、決策樹與集成學習 (Ensemble Learning) 高頻考點

三、支持向量機 (SVM) 與 K-近鄰 (KNN)

四、無監督學習：分群與降維探索性分析

五、演算法選擇情境對照表決策必讀