商帖小記 SomeTips: iPAS 電腦視覺 (Computer Vision) 深度筆記

人工智慧技術應用規劃 | 單元 3.2 核心主題解析

快速導覽：

1. 數位影像基礎
2. 影像前處理與增強
3. CNN 卷積神經網路
4. 經典模型演進架構
5. 物件偵測與指標

一、數位影像基礎定義

電腦視覺的核心是將數位訊號轉換為具語義的資訊。理解影像的組成是第一步。

像素 (Pixel)： 構成影像的最小單位，包含亮度或色彩數值。
色彩空間 (Color Space)：
- RGB： 加法混色，最常用於顯示器。
- 灰階 (Grayscale)： 單通道，數值 0 (黑) 至 255 (白)。
- HSV： 色相 (Hue)、飽和度 (Saturation)、明度 (Value)。在處理「顏色分割」時比 RGB 更穩健。

二、影像前處理與資料增強必考核心

2.1 資料增強 (Data Augmentation)

目的： 模擬現實環境的變異，增加樣本多樣性，藉此 抑制過擬合 (Overfitting)。

幾何變換： 旋轉、縮放、水平/垂直翻轉、裁剪。
色彩變換： 調整亮度、對比度、加入高斯雜訊。

常見影像處理技術對比：

Canny 邊緣檢測

技術	說明	應考關鍵字
標準化 (Normalization)	將像素縮放至 [0,1] 或 [-1,1]	加速收斂、數值穩定
高斯模糊 (Gaussian Blur)	利用卷積進行平滑化	去噪、減少細節雜訊
提取影像中的物體輪廓	特徵提取、結構分析

三、卷積神經網路 (CNN) 核心機制

CNN 透過層次化的特徵學習，實現從「點、線、面」到「複雜物體」的識別。

3.1 卷積層 (Convolutional Layer)

利用 Filter (卷積核) 在影像上滑動進行內積運算。

輸出大小 = [(輸入大小 - 卷積核大小 + 2*Padding) / Stride] + 1

Stride (步長)： 濾鏡滑動的距離。步長增加會縮小輸出維度。
Padding (填充)： 在周圍補 0。目的是防止邊緣資訊丟失。

3.2 池化層 (Pooling Layer)

Max Pooling (最大池化)

保留區域內的最大值。擅長捕捉 顯著特徵，目前最主流。

Average Pooling (平均池化)

計算區域平均值。特點是影像背景資訊保留較多，常用於全卷積網路末端。

四、經典模型架構演進中級鑑別點

4.1 模型演進里程碑

AlexNet： 2012 帶動深度學習熱潮，引入 ReLU 與 Dropout。
VGGNet： 證明了「深度」的重要性，全部使用 3x3 小卷積核堆疊。
ResNet (殘差網路)： 核心在於 Skip Connection (跳躍連接)。解決了深層網路的「梯度消失」與「退化問題」。
MobileNet： 採用「深度可分離卷積 (Depthwise Separable Conv)」，適合手機等嵌入式設備。

五、物件偵測與指標應用場景評估

5.1 物件偵測架構對比

類別	代表模型	優點	缺點
One-Stage	YOLO, SSD	速度極快 (適合即時)	小物件偵測稍弱
Two-Stage	Faster R-CNN	精確度高 (先選後分類)	速度較慢，難以即時

評價指標深度解析：

IoU (交併比)： (預測框 ∩ 真實框) / (預測框 ∪ 真實框)。衡量框住的位置準不準。
Precision (精確度)： 抓出來的樣本中有多少是真的。
Recall (召回率)： 所有的正樣本中有多少被你抓出來。
mAP (平均精度均值)： 物件偵測 最核心指標，總結了所有類別的 Precision-Recall 曲線表現。

5.2 影像分割 (Segmentation)

語意分割 (Semantic)： 把相同類別的像素塗上相同顏色 (如：所有路人都是藍色)。
實例分割 (Instance)： 除了分種類，還要分個體 (如：路人甲是藍色、路人乙是紅色)。代表作：Mask R-CNN。

🚩 考前速記口訣

🔸 Augmentation： 多樣變換防過擬，旋轉翻轉不嫌多。
🔸 ResNet： 跳躍連結救深層，梯度不再消失中。
🔸 YOLO： 一眼看穿求即時，一階段架構速度衝。
🔸 IoU： 重疊越多分越高，目標框定才算行。

商帖小記 SomeTips

iPAS 電腦視覺 (Computer Vision) 深度筆記

一、數位影像基礎定義

二、影像前處理與資料增強必考核心

2.1 資料增強 (Data Augmentation)

三、卷積神經網路 (CNN) 核心機制

3.1 卷積層 (Convolutional Layer)

3.2 池化層 (Pooling Layer)

Max Pooling (最大池化)

Average Pooling (平均池化)

四、經典模型架構演進中級鑑別點

4.1 模型演進里程碑

五、物件偵測與指標應用場景評估

5.1 物件偵測架構對比

5.2 影像分割 (Segmentation)

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 電腦視覺 (Computer Vision) 深度筆記

一、 數位影像基礎定義

二、 影像前處理與資料增強 必考核心

2.1 資料增強 (Data Augmentation)

三、 卷積神經網路 (CNN) 核心機制

3.1 卷積層 (Convolutional Layer)

3.2 池化層 (Pooling Layer)

Max Pooling (最大池化)

Average Pooling (平均池化)

四、 經典模型架構演進 中級鑑別點

4.1 模型演進里程碑

五、 物件偵測與指標 應用場景評估

5.1 物件偵測架構對比

5.2 影像分割 (Segmentation)

🚩 考前速記口訣

沒有留言:

張貼留言

一、數位影像基礎定義

二、影像前處理與資料增強必考核心

三、卷積神經網路 (CNN) 核心機制

四、經典模型架構演進中級鑑別點

五、物件偵測與指標應用場景評估