iPAS 深度學習原理與框架 (Deep Learning) 深度筆記

 

機器學習技術與應用 | 單元 4.3 核心主題解析

一、 神經網路基礎組件 必考核心

深度學習是受生物神經系統啟發的分層結構,其核心在於「權重學習」。

1.1 基本架構

  • 輸入層 (Input Layer): 接收特徵向量(如影像像素)。
  • 隱藏層 (Hidden Layers): 多層結構。層數越多,模型越「深」,能學習越複雜的非線性特徵。
  • 輸出層 (Output Layer): 產生最後預測(如分類標籤)。
  • 權重 (Weights) 與 偏差 (Bias): 模型要調整的參數。
全連接層 (Fully Connected Layer, FC):

每一層的每個神經元都與下一層的所有神經元連接。參數數量多,容易過擬合。在卷積神經網路 (CNN) 中,FC 通常放在網路末端進行最後的決策。

二、 反向傳播與自動微分 計算原理

神經網路如何「學習」?答案是靠梯度下降與反向傳播 (Backpropagation)。

2.1 反向傳播流程

  1. 前向傳播 (Forward Pass): 輸入進入網路,計算預測值與損失函數 (Loss)。
  2. 計算梯度: 利用 連鎖律 (Chain Rule),從輸出層往輸入層方向,計算 Loss 對每個權重的偏微分。
  3. 更新權重: 根據梯度方向微調參數,減少誤差。
梯度消失 (Vanishing Gradient) 問題:

當層數太深,且使用 Sigmoid 等函數時,梯度在連鎖律相乘過程中會趨近於 0,導致前面幾層學不動。這是推動 ReLU 函數 普及的主因。

三、 常用激發函數 (Activation Functions)

激發函數賦予了神經網路「非線性」表達能力,否則再多層疊加也只是線性組合。

名稱公式特性應用場景優缺點
Sigmoid輸出 [0, 1]二元分類輸出層。易產生梯度消失。
Tanh輸出 [-1, 1]隱藏層(中心點為 0)。效果優於 Sigmoid,但仍有梯度消失風險。
ReLU$max(0, x)$隱藏層主流首選計算快、減緩梯度消失。有 "Dead ReLU" 問題。
Softmax總和為 1多分類輸出層將輸出轉為機率分佈。

四、 深度學習框架比較 工程實務

規劃 AI 應用時,選擇合適的開發工具至關重要。

4.1 主流框架對照

  • TensorFlow (Google):
    • 優點:生態系完整、部屬工具 (TF Serving, TF Lite) 強大。
    • 特色:早期為靜態圖 (Static Graph),現已支援動態。
  • PyTorch (Meta):
    • 優點:語法 Pythonic、**動態圖 (Dynamic Graph)** 易於偵錯、學術界主流。
    • 特色:靈活性高,適合快速原型開發。
  • Keras: 高階 API(可運行於 TF 之上),極度簡化模型搭建流程,適合初學者。

五、 硬體加速與計算資源

深度學習需要龐大的張量運算量,傳統 CPU 已無法應付。

硬體類型全名定位與特色
CPU中央處理器處理複雜邏輯,不擅長大規模平行運算。
GPU圖形處理器深度學習主力。擁有數千核心,極擅長矩陣平行計算。
TPU張量處理器Google 專為機器學習設計的 ASIC。在雲端大規模訓練效率極高。
NPU/Edge AI神經處理器專為「推論」設計,低功耗,常用於手機或邊緣裝置。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

Read More »
>