商帖小記 SomeTips: 03/29/26

iPAS 電腦視覺 (Computer Vision) 深度筆記

人工智慧技術應用規劃 | 單元 3.2 核心主題解析

快速導覽：

1. 數位影像基礎
2. 影像前處理與增強
3. CNN 卷積神經網路
4. 經典模型演進架構
5. 物件偵測與指標

一、數位影像基礎定義

電腦視覺的核心是將數位訊號轉換為具語義的資訊。理解影像的組成是第一步。

像素 (Pixel)： 構成影像的最小單位，包含亮度或色彩數值。
色彩空間 (Color Space)：
- RGB： 加法混色，最常用於顯示器。
- 灰階 (Grayscale)： 單通道，數值 0 (黑) 至 255 (白)。
- HSV： 色相 (Hue)、飽和度 (Saturation)、明度 (Value)。在處理「顏色分割」時比 RGB 更穩健。

二、影像前處理與資料增強必考核心

2.1 資料增強 (Data Augmentation)

目的： 模擬現實環境的變異，增加樣本多樣性，藉此 抑制過擬合 (Overfitting)。

幾何變換： 旋轉、縮放、水平/垂直翻轉、裁剪。
色彩變換： 調整亮度、對比度、加入高斯雜訊。

常見影像處理技術對比：

Canny 邊緣檢測

技術	說明	應考關鍵字
標準化 (Normalization)	將像素縮放至 [0,1] 或 [-1,1]	加速收斂、數值穩定
高斯模糊 (Gaussian Blur)	利用卷積進行平滑化	去噪、減少細節雜訊
提取影像中的物體輪廓	特徵提取、結構分析

三、卷積神經網路 (CNN) 核心機制

CNN 透過層次化的特徵學習，實現從「點、線、面」到「複雜物體」的識別。

3.1 卷積層 (Convolutional Layer)

利用 Filter (卷積核) 在影像上滑動進行內積運算。

輸出大小 = [(輸入大小 - 卷積核大小 + 2*Padding) / Stride] + 1

Stride (步長)： 濾鏡滑動的距離。步長增加會縮小輸出維度。
Padding (填充)： 在周圍補 0。目的是防止邊緣資訊丟失。

3.2 池化層 (Pooling Layer)

Max Pooling (最大池化)

保留區域內的最大值。擅長捕捉 顯著特徵，目前最主流。

Average Pooling (平均池化)

計算區域平均值。特點是影像背景資訊保留較多，常用於全卷積網路末端。

四、經典模型架構演進中級鑑別點

4.1 模型演進里程碑

AlexNet： 2012 帶動深度學習熱潮，引入 ReLU 與 Dropout。
VGGNet： 證明了「深度」的重要性，全部使用 3x3 小卷積核堆疊。
ResNet (殘差網路)： 核心在於 Skip Connection (跳躍連接)。解決了深層網路的「梯度消失」與「退化問題」。
MobileNet： 採用「深度可分離卷積 (Depthwise Separable Conv)」，適合手機等嵌入式設備。

五、物件偵測與指標應用場景評估

5.1 物件偵測架構對比

類別	代表模型	優點	缺點
One-Stage	YOLO, SSD	速度極快 (適合即時)	小物件偵測稍弱
Two-Stage	Faster R-CNN	精確度高 (先選後分類)	速度較慢，難以即時

評價指標深度解析：

IoU (交併比)： (預測框 ∩ 真實框) / (預測框 ∪ 真實框)。衡量框住的位置準不準。
Precision (精確度)： 抓出來的樣本中有多少是真的。
Recall (召回率)： 所有的正樣本中有多少被你抓出來。
mAP (平均精度均值)： 物件偵測 最核心指標，總結了所有類別的 Precision-Recall 曲線表現。

5.2 影像分割 (Segmentation)

語意分割 (Semantic)： 把相同類別的像素塗上相同顏色 (如：所有路人都是藍色)。
實例分割 (Instance)： 除了分種類，還要分個體 (如：路人甲是藍色、路人乙是紅色)。代表作：Mask R-CNN。

🚩 考前速記口訣

🔸 Augmentation： 多樣變換防過擬，旋轉翻轉不嫌多。
🔸 ResNet： 跳躍連結救深層，梯度不再消失中。
🔸 YOLO： 一眼看穿求即時，一階段架構速度衝。
🔸 IoU： 重疊越多分越高，目標框定才算行。

iPAS 自然語言處理 (NLP) 深度筆記

人工智慧技術應用規劃 | 單元 3.1 核心主題解析

快速導覽：

1. NLP 發展脈絡
2. 關鍵前處理技術
3. 文本表徵演進
4. 深度學習模型架構
5. 應用場景評估

一、 NLP 發展脈絡與定義

自然語言處理 (Natural Language Processing) 旨在消除人類語言 (自然語言) 與電腦處理 (程式語言) 之間的障礙。其發展可分為三個階段：

規則導向 (Rule-based)： 依賴語言學專家的語法規則 (如：If-Then)。
統計導向 (Statistical NLP)： 利用機率模型，如隱馬可夫模型 (HMM)。
深度學習導向 (Neural NLP)： 利用神經網路與大量資料學習特徵 (如：Transformer)。

二、關鍵資料前處理技術必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

中文沒有空格，必須透過演算法識別詞界。常見工具：

Jieba (結巴)： 支援繁中，常考其三種模式 (精確、全、搜索)。
CKIP (中研院)： 準確率高，支援詞性標註 (POS Tagging)。
難點： 歧義性 (Ambiguity) 如「結婚的和尚未結婚的」與新詞識別。

詞幹提取 (Stemming) vs. 詞形還原 (Lemmatization)：

技術	說明	例子
Stemming	基於啟發式規則「切除」字尾，速度快。	cats -> cat, flying -> fly
Lemmatization	基於字典與語法分析還原「原形」，精準度高。	was -> be, mice -> mouse

三、文本表徵演進 (Text Representation)

如何將文字轉為電腦可運算的數學向量。

3.1 TF-IDF (詞頻-逆文件頻率)

用於評估字詞對一份文件的重要程度。

Score = TF(t, d) × IDF(t)

TF (Term Frequency)： 該詞在該文件中出現的頻率。越高代表該詞越重要。
IDF (Inverse Document Frequency)： log(總文件數 / 包含該詞的文件數)。越罕見的詞，IDF 越高。
應用： 關鍵字提取、文章搜尋權重。

3.2 Word2Vec (靜態詞向量)

利用淺層神經網路學習詞與詞之間的關係。主要有兩種架構：

CBOW (Continuous Bag of Words)： 用「周圍詞」預測「目標詞」。
Skip-gram： 用「目標詞」預測「周圍詞」。(通常對罕見詞效果更好)

四、深度學習模型架構中級鑑別點

RNN 家族

RNN： 具備循環路徑，適合序列資料。缺點是會有梯度消失 (Vanishing Gradient)，無法記住太長的資訊。
LSTM： 引入遺忘門 (Forget Gate) 等，大幅改善長距離記憶問題。
GRU： LSTM 的簡化版，計算速度快。

Transformer 家族

核心機制： 注意力機制 (Self-Attention)。
優點： 可平行計算 (Parallelism)，且不受距離限制，直接捕捉全句關聯。
BERT： Bidirectional Encoder (雙向)，擅長理解上下文。
GPT： Generative Pre-trained (單向)，擅長文本生成。

BERT 的訓練重點：

MLM (Masked Language Model)： 遮住 15% 的詞讓模型猜測 (類似克漏字)。
NSP (Next Sentence Prediction)： 判斷兩句話是否為前後文關係。

五、 NLP 實務應用與評估指標

5.1 應用任務分類

情感分析 (Sentiment Analysis)： 判斷正負面評價 (常用於公關監測)。
命名實體識別 (NER)： 識別地名、人名、日期等 (常用於資訊擷取)。
閱讀理解 (MRC)： 給予文章與問題，讓 AI 找出答案。

5.2 評估指標

Perplexity (困惑度)： 常用於評估語言模型。數值越低代表模型越好。
BLEU Score： 用於機器翻譯，比較生成的句子與參考答案的重合度。
ROUGE： 常用於自動摘要評估。

🚩 考前速記口訣

🔸 TF-IDF： 頻率高、總體少、權重重。
🔸 RNN： 順序跑、記不住、沒效率。
🔸 BERT： 雙向讀、擅理解、看全面。
🔸 Attention： 全局觀、分權重、能並行。

訂閱：文章 (Atom)

iPAS 電腦視覺 (Computer Vision) 深度筆記

一、 數位影像基礎定義

二、 影像前處理與資料增強 必考核心

2.1 資料增強 (Data Augmentation)

三、 卷積神經網路 (CNN) 核心機制

3.1 卷積層 (Convolutional Layer)

3.2 池化層 (Pooling Layer)

Max Pooling (最大池化)

Average Pooling (平均池化)

四、 經典模型架構演進 中級鑑別點

4.1 模型演進里程碑

五、 物件偵測與指標 應用場景評估

5.1 物件偵測架構對比

5.2 影像分割 (Segmentation)

🚩 考前速記口訣

iPAS 自然語言處理 (NLP) 深度筆記

一、 NLP 發展脈絡與定義

二、 關鍵資料前處理技術 必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

三、 文本表徵演進 (Text Representation)

3.1 TF-IDF (詞頻-逆文件頻率)

3.2 Word2Vec (靜態詞向量)

四、 深度學習模型架構 中級鑑別點

RNN 家族

Transformer 家族

五、 NLP 實務應用與評估指標

5.1 應用任務分類

5.2 評估指標

🚩 考前速記口訣

一、數位影像基礎定義

二、影像前處理與資料增強必考核心

三、卷積神經網路 (CNN) 核心機制

四、經典模型架構演進中級鑑別點

五、物件偵測與指標應用場景評估

二、關鍵資料前處理技術必考核心

三、文本表徵演進 (Text Representation)

四、深度學習模型架構中級鑑別點