人工智慧技術應用規劃 | 單元 3.2 核心主題解析
一、 數位影像基礎定義
電腦視覺的核心是將數位訊號轉換為具語義的資訊。理解影像的組成是第一步。
- 像素 (Pixel): 構成影像的最小單位,包含亮度或色彩數值。
- 色彩空間 (Color Space):
- RGB: 加法混色,最常用於顯示器。
- 灰階 (Grayscale): 單通道,數值 0 (黑) 至 255 (白)。
- HSV: 色相 (Hue)、飽和度 (Saturation)、明度 (Value)。在處理「顏色分割」時比 RGB 更穩健。
二、 影像前處理與資料增強 必考核心
2.1 資料增強 (Data Augmentation)
目的: 模擬現實環境的變異,增加樣本多樣性,藉此 抑制過擬合 (Overfitting)。
- 幾何變換: 旋轉、縮放、水平/垂直翻轉、裁剪。
- 色彩變換: 調整亮度、對比度、加入高斯雜訊。
常見影像處理技術對比:Canny 邊緣檢測
| 技術 | 說明 | 應考關鍵字 |
|---|---|---|
| 標準化 (Normalization) | 將像素縮放至 [0,1] 或 [-1,1] | 加速收斂、數值穩定 |
| 高斯模糊 (Gaussian Blur) | 利用卷積進行平滑化 | 去噪、減少細節雜訊 |
| 提取影像中的物體輪廓 | 特徵提取、結構分析 |
三、 卷積神經網路 (CNN) 核心機制
CNN 透過層次化的特徵學習,實現從「點、線、面」到「複雜物體」的識別。
3.1 卷積層 (Convolutional Layer)
利用 Filter (卷積核) 在影像上滑動進行內積運算。
輸出大小 = [(輸入大小 - 卷積核大小 + 2*Padding) / Stride] + 1
- Stride (步長): 濾鏡滑動的距離。步長增加會縮小輸出維度。
- Padding (填充): 在周圍補 0。目的是防止邊緣資訊丟失。
3.2 池化層 (Pooling Layer)
Max Pooling (最大池化)
保留區域內的最大值。擅長捕捉 顯著特徵,目前最主流。
Average Pooling (平均池化)
計算區域平均值。特點是影像背景資訊保留較多,常用於全卷積網路末端。
四、 經典模型架構演進 中級鑑別點
4.1 模型演進里程碑
- AlexNet: 2012 帶動深度學習熱潮,引入 ReLU 與 Dropout。
- VGGNet: 證明了「深度」的重要性,全部使用 3x3 小卷積核堆疊。
- ResNet (殘差網路): 核心在於 Skip Connection (跳躍連接)。解決了深層網路的「梯度消失」與「退化問題」。
- MobileNet: 採用「深度可分離卷積 (Depthwise Separable Conv)」,適合手機等嵌入式設備。
五、 物件偵測與指標 應用場景評估
5.1 物件偵測架構對比
| 類別 | 代表模型 | 優點 | 缺點 |
|---|---|---|---|
| One-Stage | YOLO, SSD | 速度極快 (適合即時) | 小物件偵測稍弱 |
| Two-Stage | Faster R-CNN | 精確度高 (先選後分類) | 速度較慢,難以即時 |
評價指標深度解析:
- IoU (交併比): (預測框 ∩ 真實框) / (預測框 ∪ 真實框)。衡量框住的位置準不準。
- Precision (精確度): 抓出來的樣本中有多少是真的。
- Recall (召回率): 所有的正樣本中有多少被你抓出來。
- mAP (平均精度均值): 物件偵測 最核心指標,總結了所有類別的 Precision-Recall 曲線表現。
5.2 影像分割 (Segmentation)
- 語意分割 (Semantic): 把相同類別的像素塗上相同顏色 (如:所有路人都是藍色)。
- 實例分割 (Instance): 除了分種類,還要分個體 (如:路人甲是藍色、路人乙是紅色)。代表作:Mask R-CNN。