機器學習技術與應用 | 單元 4.1 核心主題解析
一、 機器學習的三大範式 必考核心
根據資料是否有「標籤 (Label)」以及與環境的互動方式,可分為以下三類:
| 類型 | 資料特徵 | 目標 | 代表場景 |
|---|---|---|---|
| 監督式 (Supervised) | 有標籤 (Input + Label) | 學習對映函數 $y = f(x)$。 | 房價預測、垃圾郵件分類。 |
| 無監督式 (Unsupervised) | 無標籤 (只有 Input) | 找出資料內在結構或分群。 | 客戶分群、異常檢測。 |
| 強化學習 (Reinforcement) | 環境回饋 (Reward) | 學習在特定狀態下的最優決策。 | AlphaGo、自動駕駛。 |
二、 監督式學習經典演算法 高頻考點
規劃師需了解不同演算法的優缺點,以根據需求選擇模型。
2.1 線性回歸與邏輯回歸
- 線性回歸 (Linear Regression): 預測「連續型」數值。
- 邏輯回歸 (Logistic Regression): 雖然叫回歸,但用於「分類任務」。透過 Sigmoid 函數將輸出映射至 0~1。
2.2 支撐向量機 (SVM)
尋找一個最優超平面 (Hyperplane),使兩類資料間的 邊界 (Margin) 最大化。若資料線性不可分,可使用「核函數 (Kernel Trick)」映射到高維空間。
2.3 決策樹 (Decision Tree)
基於屬性測試的樹狀結構。優點是 具高度可解釋性。缺點是單一樹模型容易 過擬合 (Overfitting)。
三、 無監督式學習與降維技術
在沒有標準答案的情況下,如何發現規律?
核心技術:
- K-Means 分群: 將樣本分為 K 個簇,使簇內距離最小、簇間距離最大。須事先設定 K 值。
- 主成分分析 (PCA): 透過線性代數變換,將高維特徵投影至低維度,並保留最大變異量。
- 關聯規則 (Association Rules): 找出事件間的同時發生規律(如:尿布與啤酒)。
四、 模型評估指標與偏差-方差權衡 應試大熱點
如何判斷模型是好是壞?為什麼模型在訓練集很準,測試集卻很爛?
4.1 偏差 (Bias) vs 方差 (Variance)
- 高偏差 (High Bias): 模型太簡單,「學不會」,導致 欠擬合 (Underfitting)。
- 高方差 (High Variance): 模型太複雜,「背死書」,導致 過擬合 (Overfitting)。
分類任務評估指標 (混淆矩陣):
- 準確率 (Accuracy): 答對的比例(樣本不平衡時不適用)。
- 精確率 (Precision): 預測為正樣本中,真正為正的比例(防錯殺)。
- 召回率 (Recall): 實際為正樣本中,被預測出來的比例(防漏抓)。
- F1-Score: 精確率與召回率的調和平均(綜合指標)。
五、 集成學習 (Ensemble Learning) 效能巔峰
「團結力量大」,結合多個弱學習器來構建一個強學習器。
- Bagging (自助聚合): 並行訓練多個模型,最後投票或平均。代表:隨機森林 (Random Forest)。優點:降低方差,防止過擬合。
- Boosting (提升法): 串行訓練,後面的模型專注於修正前面模型的錯誤。代表:XGBoost, LightGBM。優點:大幅降低偏差,效能極佳。
沒有留言:
張貼留言