機器學習技術與應用 | 單元 5.2 核心主題解析
一、 模型選擇的基本原則 規劃核心
模型選擇並非越複雜越好,而是要根據「資料量」、「問題類型」與「部署環境」來決定。
1.1 考量因素
- 問題本質: 分類 (Classification)、回歸 (Regression) 還是分群 (Clustering)?
- 資料量大小:
- 資料少:選簡單模型(如線性回歸、SVM),避免過擬合。
- 資料多:選深層網路(如 Transformer、CNN),提取複雜特徵。
- 解釋性需求: 醫療、金融領域優先選「白箱模型」(如決策樹、邏輯回歸);純準確率導向選「黑箱模型」(如深度學習)。
二、 偏差與變異的權衡 (Bias-Variance Tradeoff) 必考原理
這是衡量模型效能最基礎的理論架構。
| 術語 | 說明 | 現象 | 解決方案 |
|---|---|---|---|
| 高偏差 (High Bias) | 模型太簡單,沒學到資料規律。 | 欠擬合 (Underfitting) | 增加特徵、增加模型複雜度。 |
| 高變異 (High Variance) | 模型太複雜,學到了雜訊。 | 過擬合 (Overfitting) | 增加資料、正則化 (L1/L2)、Dropout。 |
如果兩個模型具有相似的解釋能力(預測效果),應該選擇較簡單的那一個。簡單模型通常具有更好的泛化能力 (Generalization)。
三、 常用網路架構類型 技術選型
在設計 AI 系統時,必須了解不同架構的適用範疇。
3.1 卷積神經網路 (CNN)
特性: 具備卷積層與池化層,擁有「平移不變性」。
場景: 電腦視覺 (CV)、影像分類、物件偵測。
3.2 循環神經網路 (RNN / LSTM)
特性: 具備記憶性,處理序列資料。
場景: 時間序列預測、語音辨識(雖然目前多被 Transformer 取代)。
3.3 Transformer 架構
特性: 注意力機制 (Attention)。平行運算能力強,處理長距離依賴效果好。
場景: 自然語言處理 (NLP)、大語言模型 (LLM)。
四、 模型架構優化技術 效能調整
如何在保持準確率的同時,讓模型更快、更輕量?
- 超參數調優 (Hyperparameter Tuning):
手動調整學習率 (Learning Rate)、批次大小 (Batch Size)、層數。
方法: 網格搜尋 (Grid Search)、隨機搜尋 (Random Search)。 - 模型壓縮 (Compression):
- 權重剪枝 (Pruning): 移除影響小的神經元權重。
- 量化 (Quantization): 將 32-bit 浮點數轉為 8-bit 整數,加速推論。
- 知識蒸餾 (Distillation): 大模型 (Teacher) 指導小模型 (Student)。
五、 部署考量:雲端 vs. 邊緣 (Edge) 應用規劃
架構設計必須考慮推理 (Inference) 的執行位置。
| 部署位置 | 優點 | 缺點 | 適用情境 |
|---|---|---|---|
| 雲端 (Cloud) | 運算力強、可處理複雜大模型。 | 依賴網路、延遲高、隱私疑慮。 | 大數據分析、生成式 AI。 |
| 邊緣 (Edge) | 低延遲、省頻寬、資料不出在地。 | 運算資源有限(記憶體/功耗)。 | 自駕車、工廠設備監控。 |