iPAS 電腦視覺 (Computer Vision) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.2 核心主題解析

一、 數位影像基礎定義

電腦視覺的核心是將數位訊號轉換為具語義的資訊。理解影像的組成是第一步。

  • 像素 (Pixel): 構成影像的最小單位,包含亮度或色彩數值。
  • 色彩空間 (Color Space):
    • RGB: 加法混色,最常用於顯示器。
    • 灰階 (Grayscale): 單通道,數值 0 (黑) 至 255 (白)。
    • HSV: 色相 (Hue)、飽和度 (Saturation)、明度 (Value)。在處理「顏色分割」時比 RGB 更穩健。

二、 影像前處理與資料增強 必考核心

2.1 資料增強 (Data Augmentation)

目的: 模擬現實環境的變異,增加樣本多樣性,藉此 抑制過擬合 (Overfitting)

  • 幾何變換: 旋轉、縮放、水平/垂直翻轉、裁剪。
  • 色彩變換: 調整亮度、對比度、加入高斯雜訊。
常見影像處理技術對比:
  • Canny 邊緣檢測
  • 技術說明應考關鍵字
    標準化 (Normalization)將像素縮放至 [0,1] 或 [-1,1]加速收斂、數值穩定
    高斯模糊 (Gaussian Blur)利用卷積進行平滑化去噪、減少細節雜訊
    提取影像中的物體輪廓特徵提取、結構分析

    三、 卷積神經網路 (CNN) 核心機制

    CNN 透過層次化的特徵學習,實現從「點、線、面」到「複雜物體」的識別。

    3.1 卷積層 (Convolutional Layer)

    利用 Filter (卷積核) 在影像上滑動進行內積運算。

    輸出大小 = [(輸入大小 - 卷積核大小 + 2*Padding) / Stride] + 1
    • Stride (步長): 濾鏡滑動的距離。步長增加會縮小輸出維度。
    • Padding (填充): 在周圍補 0。目的是防止邊緣資訊丟失。

    3.2 池化層 (Pooling Layer)

    Max Pooling (最大池化)

    保留區域內的最大值。擅長捕捉 顯著特徵,目前最主流。

    Average Pooling (平均池化)

    計算區域平均值。特點是影像背景資訊保留較多,常用於全卷積網路末端。

    四、 經典模型架構演進 中級鑑別點

    4.1 模型演進里程碑

    • AlexNet: 2012 帶動深度學習熱潮,引入 ReLU 與 Dropout。
    • VGGNet: 證明了「深度」的重要性,全部使用 3x3 小卷積核堆疊。
    • ResNet (殘差網路): 核心在於 Skip Connection (跳躍連接)。解決了深層網路的「梯度消失」與「退化問題」。
    • MobileNet: 採用「深度可分離卷積 (Depthwise Separable Conv)」,適合手機等嵌入式設備。

    五、 物件偵測與指標 應用場景評估

    5.1 物件偵測架構對比

    類別代表模型優點缺點
    One-StageYOLO, SSD速度極快 (適合即時)小物件偵測稍弱
    Two-StageFaster R-CNN精確度高 (先選後分類)速度較慢,難以即時
    評價指標深度解析:
    • IoU (交併比): (預測框 ∩ 真實框) / (預測框 ∪ 真實框)。衡量框住的位置準不準。
    • Precision (精確度): 抓出來的樣本中有多少是真的。
    • Recall (召回率): 所有的正樣本中有多少被你抓出來。
    • mAP (平均精度均值): 物件偵測 最核心指標,總結了所有類別的 Precision-Recall 曲線表現。

    5.2 影像分割 (Segmentation)

    • 語意分割 (Semantic): 把相同類別的像素塗上相同顏色 (如:所有路人都是藍色)。
    • 實例分割 (Instance): 除了分種類,還要分個體 (如:路人甲是藍色、路人乙是紅色)。代表作:Mask R-CNN

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

    Read More »

    iPAS 自然語言處理 (NLP) 深度筆記

     

    人工智慧技術應用規劃 | 單元 3.1 核心主題解析

    一、 NLP 發展脈絡與定義

    自然語言處理 (Natural Language Processing) 旨在消除人類語言 (自然語言) 與電腦處理 (程式語言) 之間的障礙。其發展可分為三個階段:

    • 規則導向 (Rule-based): 依賴語言學專家的語法規則 (如:If-Then)。
    • 統計導向 (Statistical NLP): 利用機率模型,如隱馬可夫模型 (HMM)。
    • 深度學習導向 (Neural NLP): 利用神經網路與大量資料學習特徵 (如:Transformer)。

    二、 關鍵資料前處理技術 必考核心

    2.1 中文斷詞 (Chinese Word Segmentation)

    中文沒有空格,必須透過演算法識別詞界。常見工具:

    • Jieba (結巴): 支援繁中,常考其三種模式 (精確、全、搜索)。
    • CKIP (中研院): 準確率高,支援詞性標註 (POS Tagging)。
    • 難點: 歧義性 (Ambiguity) 如「結婚的和尚未結婚的」與新詞識別。
    詞幹提取 (Stemming) vs. 詞形還原 (Lemmatization):
    技術說明例子
    Stemming基於啟發式規則「切除」字尾,速度快。cats -> cat, flying -> fly
    Lemmatization基於字典與語法分析還原「原形」,精準度高。was -> be, mice -> mouse

    三、 文本表徵演進 (Text Representation)

    如何將文字轉為電腦可運算的數學向量。

    3.1 TF-IDF (詞頻-逆文件頻率)

    用於評估字詞對一份文件的重要程度。

    Score = TF(t, d) × IDF(t)
    • TF (Term Frequency): 該詞在該文件中出現的頻率。越高代表該詞越重要。
    • IDF (Inverse Document Frequency): log(總文件數 / 包含該詞的文件數)。越罕見的詞,IDF 越高。
    • 應用: 關鍵字提取、文章搜尋權重。

    3.2 Word2Vec (靜態詞向量)

    利用淺層神經網路學習詞與詞之間的關係。主要有兩種架構:

    • CBOW (Continuous Bag of Words): 用「周圍詞」預測「目標詞」。
    • Skip-gram: 用「目標詞」預測「周圍詞」。(通常對罕見詞效果更好)

    四、 深度學習模型架構 中級鑑別點

    RNN 家族

    • RNN: 具備循環路徑,適合序列資料。缺點是會有梯度消失 (Vanishing Gradient),無法記住太長的資訊。
    • LSTM: 引入遺忘門 (Forget Gate) 等,大幅改善長距離記憶問題。
    • GRU: LSTM 的簡化版,計算速度快。

    Transformer 家族

    • 核心機制: 注意力機制 (Self-Attention)。
    • 優點: 可平行計算 (Parallelism),且不受距離限制,直接捕捉全句關聯。
    • BERT: Bidirectional Encoder (雙向),擅長理解上下文。
    • GPT: Generative Pre-trained (單向),擅長文本生成。
    BERT 的訓練重點:
    • MLM (Masked Language Model): 遮住 15% 的詞讓模型猜測 (類似克漏字)。
    • NSP (Next Sentence Prediction): 判斷兩句話是否為前後文關係。

    五、 NLP 實務應用與評估指標

    5.1 應用任務分類

    • 情感分析 (Sentiment Analysis): 判斷正負面評價 (常用於公關監測)。
    • 命名實體識別 (NER): 識別地名、人名、日期等 (常用於資訊擷取)。
    • 閱讀理解 (MRC): 給予文章與問題,讓 AI 找出答案。

    5.2 評估指標

    • Perplexity (困惑度): 常用於評估語言模型。數值越低代表模型越好。
    • BLEU Score: 用於機器翻譯,比較生成的句子與參考答案的重合度。
    • ROUGE: 常用於自動摘要評估。

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

    Read More »
    >