iPAS 電腦視覺 (Computer Vision) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.2 核心主題解析

一、 數位影像基礎定義

電腦視覺的核心是將數位訊號轉換為具語義的資訊。理解影像的組成是第一步。

  • 像素 (Pixel): 構成影像的最小單位,包含亮度或色彩數值。
  • 色彩空間 (Color Space):
    • RGB: 加法混色,最常用於顯示器。
    • 灰階 (Grayscale): 單通道,數值 0 (黑) 至 255 (白)。
    • HSV: 色相 (Hue)、飽和度 (Saturation)、明度 (Value)。在處理「顏色分割」時比 RGB 更穩健。

二、 影像前處理與資料增強 必考核心

2.1 資料增強 (Data Augmentation)

目的: 模擬現實環境的變異,增加樣本多樣性,藉此 抑制過擬合 (Overfitting)

  • 幾何變換: 旋轉、縮放、水平/垂直翻轉、裁剪。
  • 色彩變換: 調整亮度、對比度、加入高斯雜訊。
常見影像處理技術對比:
  • Canny 邊緣檢測
  • 技術說明應考關鍵字
    標準化 (Normalization)將像素縮放至 [0,1] 或 [-1,1]加速收斂、數值穩定
    高斯模糊 (Gaussian Blur)利用卷積進行平滑化去噪、減少細節雜訊
    提取影像中的物體輪廓特徵提取、結構分析

    三、 卷積神經網路 (CNN) 核心機制

    CNN 透過層次化的特徵學習,實現從「點、線、面」到「複雜物體」的識別。

    3.1 卷積層 (Convolutional Layer)

    利用 Filter (卷積核) 在影像上滑動進行內積運算。

    輸出大小 = [(輸入大小 - 卷積核大小 + 2*Padding) / Stride] + 1
    • Stride (步長): 濾鏡滑動的距離。步長增加會縮小輸出維度。
    • Padding (填充): 在周圍補 0。目的是防止邊緣資訊丟失。

    3.2 池化層 (Pooling Layer)

    Max Pooling (最大池化)

    保留區域內的最大值。擅長捕捉 顯著特徵,目前最主流。

    Average Pooling (平均池化)

    計算區域平均值。特點是影像背景資訊保留較多,常用於全卷積網路末端。

    四、 經典模型架構演進 中級鑑別點

    4.1 模型演進里程碑

    • AlexNet: 2012 帶動深度學習熱潮,引入 ReLU 與 Dropout。
    • VGGNet: 證明了「深度」的重要性,全部使用 3x3 小卷積核堆疊。
    • ResNet (殘差網路): 核心在於 Skip Connection (跳躍連接)。解決了深層網路的「梯度消失」與「退化問題」。
    • MobileNet: 採用「深度可分離卷積 (Depthwise Separable Conv)」,適合手機等嵌入式設備。

    五、 物件偵測與指標 應用場景評估

    5.1 物件偵測架構對比

    類別代表模型優點缺點
    One-StageYOLO, SSD速度極快 (適合即時)小物件偵測稍弱
    Two-StageFaster R-CNN精確度高 (先選後分類)速度較慢,難以即時
    評價指標深度解析:
    • IoU (交併比): (預測框 ∩ 真實框) / (預測框 ∪ 真實框)。衡量框住的位置準不準。
    • Precision (精確度): 抓出來的樣本中有多少是真的。
    • Recall (召回率): 所有的正樣本中有多少被你抓出來。
    • mAP (平均精度均值): 物件偵測 最核心指標,總結了所有類別的 Precision-Recall 曲線表現。

    5.2 影像分割 (Segmentation)

    • 語意分割 (Semantic): 把相同類別的像素塗上相同顏色 (如:所有路人都是藍色)。
    • 實例分割 (Instance): 除了分種類,還要分個體 (如:路人甲是藍色、路人乙是紅色)。代表作:Mask R-CNN

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

    沒有留言:

    張貼留言

    >