商帖小記 SomeTips: iPAS 自然語言處理 (NLP) 深度筆記

人工智慧技術應用規劃 | 單元 3.1 核心主題解析

快速導覽：

1. NLP 發展脈絡
2. 關鍵前處理技術
3. 文本表徵演進
4. 深度學習模型架構
5. 應用場景評估

一、 NLP 發展脈絡與定義

自然語言處理 (Natural Language Processing) 旨在消除人類語言 (自然語言) 與電腦處理 (程式語言) 之間的障礙。其發展可分為三個階段：

規則導向 (Rule-based)： 依賴語言學專家的語法規則 (如：If-Then)。
統計導向 (Statistical NLP)： 利用機率模型，如隱馬可夫模型 (HMM)。
深度學習導向 (Neural NLP)： 利用神經網路與大量資料學習特徵 (如：Transformer)。

二、關鍵資料前處理技術必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

中文沒有空格，必須透過演算法識別詞界。常見工具：

Jieba (結巴)： 支援繁中，常考其三種模式 (精確、全、搜索)。
CKIP (中研院)： 準確率高，支援詞性標註 (POS Tagging)。
難點： 歧義性 (Ambiguity) 如「結婚的和尚未結婚的」與新詞識別。

詞幹提取 (Stemming) vs. 詞形還原 (Lemmatization)：

技術	說明	例子
Stemming	基於啟發式規則「切除」字尾，速度快。	cats -> cat, flying -> fly
Lemmatization	基於字典與語法分析還原「原形」，精準度高。	was -> be, mice -> mouse

三、文本表徵演進 (Text Representation)

如何將文字轉為電腦可運算的數學向量。

3.1 TF-IDF (詞頻-逆文件頻率)

用於評估字詞對一份文件的重要程度。

Score = TF(t, d) × IDF(t)

TF (Term Frequency)： 該詞在該文件中出現的頻率。越高代表該詞越重要。
IDF (Inverse Document Frequency)： log(總文件數 / 包含該詞的文件數)。越罕見的詞，IDF 越高。
應用： 關鍵字提取、文章搜尋權重。

3.2 Word2Vec (靜態詞向量)

利用淺層神經網路學習詞與詞之間的關係。主要有兩種架構：

CBOW (Continuous Bag of Words)： 用「周圍詞」預測「目標詞」。
Skip-gram： 用「目標詞」預測「周圍詞」。(通常對罕見詞效果更好)

四、深度學習模型架構中級鑑別點

RNN 家族

RNN： 具備循環路徑，適合序列資料。缺點是會有梯度消失 (Vanishing Gradient)，無法記住太長的資訊。
LSTM： 引入遺忘門 (Forget Gate) 等，大幅改善長距離記憶問題。
GRU： LSTM 的簡化版，計算速度快。

Transformer 家族

核心機制： 注意力機制 (Self-Attention)。
優點： 可平行計算 (Parallelism)，且不受距離限制，直接捕捉全句關聯。
BERT： Bidirectional Encoder (雙向)，擅長理解上下文。
GPT： Generative Pre-trained (單向)，擅長文本生成。

BERT 的訓練重點：

MLM (Masked Language Model)： 遮住 15% 的詞讓模型猜測 (類似克漏字)。
NSP (Next Sentence Prediction)： 判斷兩句話是否為前後文關係。

五、 NLP 實務應用與評估指標

5.1 應用任務分類

情感分析 (Sentiment Analysis)： 判斷正負面評價 (常用於公關監測)。
命名實體識別 (NER)： 識別地名、人名、日期等 (常用於資訊擷取)。
閱讀理解 (MRC)： 給予文章與問題，讓 AI 找出答案。

5.2 評估指標

Perplexity (困惑度)： 常用於評估語言模型。數值越低代表模型越好。
BLEU Score： 用於機器翻譯，比較生成的句子與參考答案的重合度。
ROUGE： 常用於自動摘要評估。

🚩 考前速記口訣

🔸 TF-IDF： 頻率高、總體少、權重重。
🔸 RNN： 順序跑、記不住、沒效率。
🔸 BERT： 雙向讀、擅理解、看全面。
🔸 Attention： 全局觀、分權重、能並行。

商帖小記 SomeTips

iPAS 自然語言處理 (NLP) 深度筆記

一、 NLP 發展脈絡與定義

二、關鍵資料前處理技術必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

三、文本表徵演進 (Text Representation)

3.1 TF-IDF (詞頻-逆文件頻率)

3.2 Word2Vec (靜態詞向量)

四、深度學習模型架構中級鑑別點

RNN 家族

Transformer 家族

五、 NLP 實務應用與評估指標

5.1 應用任務分類

5.2 評估指標

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 自然語言處理 (NLP) 深度筆記

一、 NLP 發展脈絡與定義

二、 關鍵資料前處理技術 必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

三、 文本表徵演進 (Text Representation)

3.1 TF-IDF (詞頻-逆文件頻率)

3.2 Word2Vec (靜態詞向量)

四、 深度學習模型架構 中級鑑別點

RNN 家族

Transformer 家族

五、 NLP 實務應用與評估指標

5.1 應用任務分類

5.2 評估指標

🚩 考前速記口訣

沒有留言:

張貼留言

二、關鍵資料前處理技術必考核心

三、文本表徵演進 (Text Representation)

四、深度學習模型架構中級鑑別點