機器學習技術與應用 | 單元 4.3 核心主題解析
一、 神經網路基礎組件 必考核心
深度學習是受生物神經系統啟發的分層結構,其核心在於「權重學習」。
1.1 基本架構
- 輸入層 (Input Layer): 接收特徵向量(如影像像素)。
- 隱藏層 (Hidden Layers): 多層結構。層數越多,模型越「深」,能學習越複雜的非線性特徵。
- 輸出層 (Output Layer): 產生最後預測(如分類標籤)。
- 權重 (Weights) 與 偏差 (Bias): 模型要調整的參數。
全連接層 (Fully Connected Layer, FC):
每一層的每個神經元都與下一層的所有神經元連接。參數數量多,容易過擬合。在卷積神經網路 (CNN) 中,FC 通常放在網路末端進行最後的決策。
二、 反向傳播與自動微分 計算原理
神經網路如何「學習」?答案是靠梯度下降與反向傳播 (Backpropagation)。
2.1 反向傳播流程
- 前向傳播 (Forward Pass): 輸入進入網路,計算預測值與損失函數 (Loss)。
- 計算梯度: 利用 連鎖律 (Chain Rule),從輸出層往輸入層方向,計算 Loss 對每個權重的偏微分。
- 更新權重: 根據梯度方向微調參數,減少誤差。
梯度消失 (Vanishing Gradient) 問題:
當層數太深,且使用 Sigmoid 等函數時,梯度在連鎖律相乘過程中會趨近於 0,導致前面幾層學不動。這是推動 ReLU 函數 普及的主因。
三、 常用激發函數 (Activation Functions)
激發函數賦予了神經網路「非線性」表達能力,否則再多層疊加也只是線性組合。
| 名稱 | 公式特性 | 應用場景 | 優缺點 |
|---|---|---|---|
| Sigmoid | 輸出 [0, 1] | 二元分類輸出層。 | 易產生梯度消失。 |
| Tanh | 輸出 [-1, 1] | 隱藏層(中心點為 0)。 | 效果優於 Sigmoid,但仍有梯度消失風險。 |
| ReLU | $max(0, x)$ | 隱藏層主流首選。 | 計算快、減緩梯度消失。有 "Dead ReLU" 問題。 |
| Softmax | 總和為 1 | 多分類輸出層。 | 將輸出轉為機率分佈。 |
四、 深度學習框架比較 工程實務
規劃 AI 應用時,選擇合適的開發工具至關重要。
4.1 主流框架對照
- TensorFlow (Google):
- 優點:生態系完整、部屬工具 (TF Serving, TF Lite) 強大。
- 特色:早期為靜態圖 (Static Graph),現已支援動態。
- PyTorch (Meta):
- 優點:語法 Pythonic、**動態圖 (Dynamic Graph)** 易於偵錯、學術界主流。
- 特色:靈活性高,適合快速原型開發。
- Keras: 高階 API(可運行於 TF 之上),極度簡化模型搭建流程,適合初學者。
五、 硬體加速與計算資源
深度學習需要龐大的張量運算量,傳統 CPU 已無法應付。
| 硬體類型 | 全名 | 定位與特色 |
|---|---|---|
| CPU | 中央處理器 | 處理複雜邏輯,不擅長大規模平行運算。 |
| GPU | 圖形處理器 | 深度學習主力。擁有數千核心,極擅長矩陣平行計算。 |
| TPU | 張量處理器 | Google 專為機器學習設計的 ASIC。在雲端大規模訓練效率極高。 |
| NPU/Edge AI | 神經處理器 | 專為「推論」設計,低功耗,常用於手機或邊緣裝置。 |