商帖小記 SomeTips: 4月 2026

iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

機器學習技術與應用 | 單元 4.2 核心主題解析

快速導覽：

1. 線性模型 (Regression & Classification)
2. 決策樹與集成學習 (Tree & Ensemble)
3. 向量機與鄰近演算法 (SVM & KNN)
4. 無監督學習：分群與降維
5. 演算法選擇情境對照表

一、線性模型：統計學的基石必考指標

線性模型是解釋性最強的模型，也是處理結構化資料的首選入門方法。

1.1 線性回歸 (Linear Regression)

原理： 尋找一條直線 $y = wx + b$，最小化預測值與實際值的殘差平方和 (MSE)。

限制： 假設資料呈線性關係，對異常值 (Outliers) 敏感。

1.2 邏輯回歸 (Logistic Regression)

原理： 雖名為回歸，實則用於 「分類」。透過 Sigmoid 函數將線性輸出映射到 [0, 1] 之間，代表機率。

優點： 運算快、輸出具機率意義、模型參數具解釋性。

二、決策樹與集成學習 (Ensemble Learning) 高頻考點

這是目前實務上處理「表格資料 (Tabular Data)」效能最強大的家族。

核心概念對照：

技術	說明	核心機制
決策樹 (Decision Tree)	透過資訊增益 (Information Gain) 或 Gini 指數切割資料。	易過擬合，解釋性極佳。
隨機森林 (Random Forest)	Bagging 策略。並行訓練多棵樹，最後投票決定。	降低變異 (Variance)，防止過擬合。
提升法 (Boosting)	串行訓練。後一棵樹學習前一棵樹的殘差 (Error)。	如 XGBoost, LightGBM, CatBoost。

三、支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

原理： 尋找一個超平面 (Hyperplane)，使兩類資料間的 間隔 (Margin) 最大化。

關鍵字： 核函數 (Kernel Trick) — 將低維不可分資料投射到高維空間。適合小樣本、高維度資料。

3.2 K-近鄰演算法 (KNN)

原理： 惰性學習 (Lazy Learning)。預測時計算與鄰居的距離（如歐式距離），「近朱者赤」。

缺點： 計算量隨資料量增加而劇增，且受特徵量綱（單位）影響大（需做正規化）。

四、無監督學習：分群與降維探索性分析

當資料沒有標籤 (Label) 時使用的演算法。

K-Means 分群：

隨機初始化 K 個中心點。
將每個點分配給最近的中心。
重新計算中心點位置，直到收斂。

※ 注意：需事先指定 K 值，且對初始值敏感（常使用 K-Means++ 改善）。

4.2 主成分分析 (PCA)

原理： 線性降維。尋找資料變異最大的方向，將高維資料投影過去。目的：減少特徵數、去除雜訊、資料視覺化。

五、演算法選擇情境對照表決策必讀

應用情境	建議演算法	關鍵原因
預測房價、氣溫	線性回歸、XGBoost (Regression)	預測連續數值。
垃圾郵件、腫瘤辨識	邏輯回歸、隨機森林、SVM	二元分類任務。
電商客戶分眾	K-Means, 層次聚類	探索隱藏群體。
手寫文字、高維影像	深度學習 (CNN)、SVM (Kernel)	特徵極度複雜且非線性。
表格資料且求極致準度	XGBoost / LightGBM	Boosting 家族在結構化資料表現最優。

🚩 考前速記口訣

🔸 線性回歸： 直線擬合預測數值，怕極端值愛線性。
🔸 邏輯回歸： 名字騙人實分類，機率輸出好解釋。
🔸 隨機森林： 森林投票防過擬，平行訓練效率高。
🔸 XGBoost： 一棵補一棵殘差，當今表格最強者。
🔸 SVM： 間隔最大超平面，核函數投射高維。
🔸 KNN： 隔壁鄰居誰最多，算距離前要縮放。
🔸 K-Means： 找中心分群組，K 值多少要先說。

iPAS 機器學習原理與技術 (ML Principles) 深度筆記

機器學習技術與應用 | 單元 4.1 核心主題解析

快速導覽：

1. 機器學習的三大範式
2. 監督式學習經典演算法
3. 無監督式學習與降維技術
4. 模型評估指標與過擬合
5. 集成學習 (Ensemble Learning)

一、機器學習的三大範式必考核心

根據資料是否有「標籤 (Label)」以及與環境的互動方式，可分為以下三類：

類型	資料特徵	目標	代表場景
監督式 (Supervised)	有標籤 (Input + Label)	學習對映函數 $y = f(x)$。	房價預測、垃圾郵件分類。
無監督式 (Unsupervised)	無標籤 (只有 Input)	找出資料內在結構或分群。	客戶分群、異常檢測。
強化學習 (Reinforcement)	環境回饋 (Reward)	學習在特定狀態下的最優決策。	AlphaGo、自動駕駛。

二、監督式學習經典演算法高頻考點

規劃師需了解不同演算法的優缺點，以根據需求選擇模型。

2.1 線性回歸與邏輯回歸

線性回歸 (Linear Regression)： 預測「連續型」數值。
邏輯回歸 (Logistic Regression)： 雖然叫回歸，但用於「分類任務」。透過 Sigmoid 函數將輸出映射至 0~1。

2.2 支撐向量機 (SVM)

尋找一個最優超平面 (Hyperplane)，使兩類資料間的 邊界 (Margin) 最大化。若資料線性不可分，可使用「核函數 (Kernel Trick)」映射到高維空間。

2.3 決策樹 (Decision Tree)

基於屬性測試的樹狀結構。優點是 具高度可解釋性。缺點是單一樹模型容易 過擬合 (Overfitting)。

三、無監督式學習與降維技術

在沒有標準答案的情況下，如何發現規律？

核心技術：

K-Means 分群： 將樣本分為 K 個簇，使簇內距離最小、簇間距離最大。須事先設定 K 值。
主成分分析 (PCA)： 透過線性代數變換，將高維特徵投影至低維度，並保留最大變異量。
關聯規則 (Association Rules)： 找出事件間的同時發生規律（如：尿布與啤酒）。

四、模型評估指標與偏差-方差權衡應試大熱點

如何判斷模型是好是壞？為什麼模型在訓練集很準，測試集卻很爛？

4.1 偏差 (Bias) vs 方差 (Variance)

高偏差 (High Bias)： 模型太簡單，「學不會」，導致 欠擬合 (Underfitting)。
高方差 (High Variance)： 模型太複雜，「背死書」，導致 過擬合 (Overfitting)。

分類任務評估指標 (混淆矩陣)：

準確率 (Accuracy)： 答對的比例（樣本不平衡時不適用）。
精確率 (Precision)： 預測為正樣本中，真正為正的比例（防錯殺）。
召回率 (Recall)： 實際為正樣本中，被預測出來的比例（防漏抓）。
F1-Score： 精確率與召回率的調和平均（綜合指標）。

五、集成學習 (Ensemble Learning) 效能巔峰

「團結力量大」，結合多個弱學習器來構建一個強學習器。

Bagging (自助聚合)： 並行訓練多個模型，最後投票或平均。代表：隨機森林 (Random Forest)。優點：降低方差，防止過擬合。
Boosting (提升法)： 串行訓練，後面的模型專注於修正前面模型的錯誤。代表：XGBoost, LightGBM。優點：大幅降低偏差，效能極佳。

🚩 考前速記口訣

🔸 學習分類： 有標標看監督，無標標看分群，獎勵回饋強化行。
🔸 SVM： 邊界最大化，核函數轉高維。
🔸 決策樹： 雖然好解釋，小心過擬合。
🔸 過擬合： 背得太認真，考試考不出 (低偏差、高方差)。
🔸 集成學習： Bagging 森林並行跑，Boosting 專改錯中錯。
🔸 評估指標： 樣本不均莫看準確率，F1 才是真朋友。

訂閱：意見 (Atom)

iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

一、 線性模型：統計學的基石 必考指標

1.1 線性回歸 (Linear Regression)

1.2 邏輯回歸 (Logistic Regression)

二、 決策樹與集成學習 (Ensemble Learning) 高頻考點

三、 支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

3.2 K-近鄰演算法 (KNN)

四、 無監督學習：分群與降維 探索性分析

4.2 主成分分析 (PCA)

五、 演算法選擇情境對照表 決策必讀

🚩 考前速記口訣

iPAS 機器學習原理與技術 (ML Principles) 深度筆記

一、 機器學習的三大範式 必考核心

二、 監督式學習經典演算法 高頻考點

2.1 線性回歸與邏輯回歸

2.2 支撐向量機 (SVM)

2.3 決策樹 (Decision Tree)

三、 無監督式學習與降維技術

四、 模型評估指標與偏差-方差權衡 應試大熱點

4.1 偏差 (Bias) vs 方差 (Variance)

五、 集成學習 (Ensemble Learning) 效能巔峰

🚩 考前速記口訣

一、線性模型：統計學的基石必考指標

二、決策樹與集成學習 (Ensemble Learning) 高頻考點

三、支持向量機 (SVM) 與 K-近鄰 (KNN)

四、無監督學習：分群與降維探索性分析

五、演算法選擇情境對照表決策必讀

一、機器學習的三大範式必考核心

二、監督式學習經典演算法高頻考點

三、無監督式學習與降維技術

四、模型評估指標與偏差-方差權衡應試大熱點

五、集成學習 (Ensemble Learning) 效能巔峰