iPAS 常見機器學習演算法 (ML Algorithms) 深度筆記

 

機器學習技術與應用 | 單元 4.2 核心主題解析

一、 線性模型:統計學的基石 必考指標

線性模型是解釋性最強的模型,也是處理結構化資料的首選入門方法。

1.1 線性回歸 (Linear Regression)

原理: 尋找一條直線 $y = wx + b$,最小化預測值與實際值的殘差平方和 (MSE)。

限制: 假設資料呈線性關係,對異常值 (Outliers) 敏感。

1.2 邏輯回歸 (Logistic Regression)

原理: 雖名為回歸,實則用於 「分類」。透過 Sigmoid 函數將線性輸出映射到 [0, 1] 之間,代表機率。

優點: 運算快、輸出具機率意義、模型參數具解釋性。

二、 決策樹與集成學習 (Ensemble Learning) 高頻考點

這是目前實務上處理「表格資料 (Tabular Data)」效能最強大的家族。

核心概念對照:
技術說明核心機制
決策樹 (Decision Tree)透過資訊增益 (Information Gain) 或 Gini 指數切割資料。易過擬合,解釋性極佳。
隨機森林 (Random Forest)Bagging 策略。並行訓練多棵樹,最後投票決定。降低變異 (Variance),防止過擬合。
提升法 (Boosting)串行訓練。後一棵樹學習前一棵樹的 殘差 (Error)如 XGBoost, LightGBM, CatBoost。

三、 支持向量機 (SVM) 與 K-近鄰 (KNN)

3.1 支持向量機 (SVM)

原理: 尋找一個超平面 (Hyperplane),使兩類資料間的 間隔 (Margin) 最大化

關鍵字: 核函數 (Kernel Trick) — 將低維不可分資料投射到高維空間。適合小樣本、高維度資料。

3.2 K-近鄰演算法 (KNN)

原理: 惰性學習 (Lazy Learning)。預測時計算與鄰居的距離(如歐式距離),「近朱者赤」。

缺點: 計算量隨資料量增加而劇增,且受特徵量綱(單位)影響大(需做正規化)。

四、 無監督學習:分群與降維 探索性分析

當資料沒有標籤 (Label) 時使用的演算法。

K-Means 分群:
  1. 隨機初始化 K 個中心點。
  2. 將每個點分配給最近的中心。
  3. 重新計算中心點位置,直到收斂。

※ 注意:需事先指定 K 值,且對初始值敏感(常使用 K-Means++ 改善)。

4.2 主成分分析 (PCA)

原理: 線性降維。尋找資料變異最大的方向,將高維資料投影過去。目的:減少特徵數、去除雜訊、資料視覺化。

五、 演算法選擇情境對照表 決策必讀

應用情境建議演算法關鍵原因
預測房價、氣溫線性回歸、XGBoost (Regression)預測連續數值。
垃圾郵件、腫瘤辨識邏輯回歸、隨機森林、SVM二元分類任務。
電商客戶分眾K-Means, 層次聚類探索隱藏群體。
手寫文字、高維影像深度學習 (CNN)、SVM (Kernel)特徵極度複雜且非線性。
表格資料且求極致準度XGBoost / LightGBMBoosting 家族在結構化資料表現最優。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »

iPAS 機器學習原理與技術 (ML Principles) 深度筆記

 

機器學習技術與應用 | 單元 4.1 核心主題解析

一、 機器學習的三大範式 必考核心

根據資料是否有「標籤 (Label)」以及與環境的互動方式,可分為以下三類:

類型資料特徵目標代表場景
監督式 (Supervised)有標籤 (Input + Label)學習對映函數 $y = f(x)$。房價預測、垃圾郵件分類。
無監督式 (Unsupervised)無標籤 (只有 Input)找出資料內在結構或分群。客戶分群、異常檢測。
強化學習 (Reinforcement)環境回饋 (Reward)學習在特定狀態下的最優決策。AlphaGo、自動駕駛。

二、 監督式學習經典演算法 高頻考點

規劃師需了解不同演算法的優缺點,以根據需求選擇模型。

2.1 線性回歸與邏輯回歸

  • 線性回歸 (Linear Regression): 預測「連續型」數值。
  • 邏輯回歸 (Logistic Regression): 雖然叫回歸,但用於「分類任務」。透過 Sigmoid 函數將輸出映射至 0~1。

2.2 支撐向量機 (SVM)

尋找一個最優超平面 (Hyperplane),使兩類資料間的 邊界 (Margin) 最大化。若資料線性不可分,可使用「核函數 (Kernel Trick)」映射到高維空間。

2.3 決策樹 (Decision Tree)

基於屬性測試的樹狀結構。優點是 具高度可解釋性。缺點是單一樹模型容易 過擬合 (Overfitting)

三、 無監督式學習與降維技術

在沒有標準答案的情況下,如何發現規律?

核心技術:
  • K-Means 分群: 將樣本分為 K 個簇,使簇內距離最小、簇間距離最大。須事先設定 K 值。
  • 主成分分析 (PCA): 透過線性代數變換,將高維特徵投影至低維度,並保留最大變異量。
  • 關聯規則 (Association Rules): 找出事件間的同時發生規律(如:尿布與啤酒)。

四、 模型評估指標與偏差-方差權衡 應試大熱點

如何判斷模型是好是壞?為什麼模型在訓練集很準,測試集卻很爛?

4.1 偏差 (Bias) vs 方差 (Variance)

  • 高偏差 (High Bias): 模型太簡單,「學不會」,導致 欠擬合 (Underfitting)
  • 高方差 (High Variance): 模型太複雜,「背死書」,導致 過擬合 (Overfitting)
分類任務評估指標 (混淆矩陣):
  • 準確率 (Accuracy): 答對的比例(樣本不平衡時不適用)。
  • 精確率 (Precision): 預測為正樣本中,真正為正的比例(防錯殺)。
  • 召回率 (Recall): 實際為正樣本中,被預測出來的比例(防漏抓)。
  • F1-Score: 精確率與召回率的調和平均(綜合指標)。

五、 集成學習 (Ensemble Learning) 效能巔峰

「團結力量大」,結合多個弱學習器來構建一個強學習器。

  • Bagging (自助聚合): 並行訓練多個模型,最後投票或平均。代表:隨機森林 (Random Forest)。優點:降低方差,防止過擬合。
  • Boosting (提升法): 串行訓練,後面的模型專注於修正前面模型的錯誤。代表:XGBoost, LightGBM。優點:大幅降低偏差,效能極佳。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」單元 4.1

Read More »
>