iPAS 模型選擇與架構設計 (Model & Architecture) 深度筆記

 

機器學習技術與應用 | 單元 5.2 核心主題解析

一、 模型選擇的基本原則 規劃核心

模型選擇並非越複雜越好,而是要根據「資料量」、「問題類型」與「部署環境」來決定。

1.1 考量因素

  • 問題本質: 分類 (Classification)、回歸 (Regression) 還是分群 (Clustering)?
  • 資料量大小:
    • 資料少:選簡單模型(如線性回歸、SVM),避免過擬合。
    • 資料多:選深層網路(如 Transformer、CNN),提取複雜特徵。
  • 解釋性需求: 醫療、金融領域優先選「白箱模型」(如決策樹、邏輯回歸);純準確率導向選「黑箱模型」(如深度學習)。

二、 偏差與變異的權衡 (Bias-Variance Tradeoff) 必考原理

這是衡量模型效能最基礎的理論架構。

術語說明現象解決方案
高偏差 (High Bias)模型太簡單,沒學到資料規律。欠擬合 (Underfitting)增加特徵、增加模型複雜度。
高變異 (High Variance)模型太複雜,學到了雜訊。過擬合 (Overfitting)增加資料、正則化 (L1/L2)、Dropout。
奧卡姆剃刀原則 (Occam's Razor):

如果兩個模型具有相似的解釋能力(預測效果),應該選擇較簡單的那一個。簡單模型通常具有更好的泛化能力 (Generalization)。

三、 常用網路架構類型 技術選型

在設計 AI 系統時,必須了解不同架構的適用範疇。

3.1 卷積神經網路 (CNN)

特性: 具備卷積層與池化層,擁有「平移不變性」。

場景: 電腦視覺 (CV)、影像分類、物件偵測。

3.2 循環神經網路 (RNN / LSTM)

特性: 具備記憶性,處理序列資料。

場景: 時間序列預測、語音辨識(雖然目前多被 Transformer 取代)。

3.3 Transformer 架構

特性: 注意力機制 (Attention)。平行運算能力強,處理長距離依賴效果好。

場景: 自然語言處理 (NLP)、大語言模型 (LLM)。

四、 模型架構優化技術 效能調整

如何在保持準確率的同時,讓模型更快、更輕量?

  • 超參數調優 (Hyperparameter Tuning):
    手動調整學習率 (Learning Rate)、批次大小 (Batch Size)、層數。
    方法: 網格搜尋 (Grid Search)、隨機搜尋 (Random Search)。
  • 模型壓縮 (Compression):
    • 權重剪枝 (Pruning): 移除影響小的神經元權重。
    • 量化 (Quantization): 將 32-bit 浮點數轉為 8-bit 整數,加速推論。
    • 知識蒸餾 (Distillation): 大模型 (Teacher) 指導小模型 (Student)。

五、 部署考量:雲端 vs. 邊緣 (Edge) 應用規劃

架構設計必須考慮推理 (Inference) 的執行位置。

部署位置優點缺點適用情境
雲端 (Cloud)運算力強、可處理複雜大模型。依賴網路、延遲高、隱私疑慮。大數據分析、生成式 AI。
邊緣 (Edge)低延遲、省頻寬、資料不出在地。運算資源有限(記憶體/功耗)。自駕車、工廠設備監控。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

沒有留言:

張貼留言

>