人工智慧技術應用規劃 | 單元 3.1 核心主題解析
一、 NLP 發展脈絡與定義
自然語言處理 (Natural Language Processing) 旨在消除人類語言 (自然語言) 與電腦處理 (程式語言) 之間的障礙。其發展可分為三個階段:
- 規則導向 (Rule-based): 依賴語言學專家的語法規則 (如:If-Then)。
- 統計導向 (Statistical NLP): 利用機率模型,如隱馬可夫模型 (HMM)。
- 深度學習導向 (Neural NLP): 利用神經網路與大量資料學習特徵 (如:Transformer)。
二、 關鍵資料前處理技術 必考核心
2.1 中文斷詞 (Chinese Word Segmentation)
中文沒有空格,必須透過演算法識別詞界。常見工具:
- Jieba (結巴): 支援繁中,常考其三種模式 (精確、全、搜索)。
- CKIP (中研院): 準確率高,支援詞性標註 (POS Tagging)。
- 難點: 歧義性 (Ambiguity) 如「結婚的和尚未結婚的」與新詞識別。
詞幹提取 (Stemming) vs. 詞形還原 (Lemmatization):
| 技術 | 說明 | 例子 |
|---|---|---|
| Stemming | 基於啟發式規則「切除」字尾,速度快。 | cats -> cat, flying -> fly |
| Lemmatization | 基於字典與語法分析還原「原形」,精準度高。 | was -> be, mice -> mouse |
三、 文本表徵演進 (Text Representation)
如何將文字轉為電腦可運算的數學向量。
3.1 TF-IDF (詞頻-逆文件頻率)
用於評估字詞對一份文件的重要程度。
Score = TF(t, d) × IDF(t)
- TF (Term Frequency): 該詞在該文件中出現的頻率。越高代表該詞越重要。
- IDF (Inverse Document Frequency): log(總文件數 / 包含該詞的文件數)。越罕見的詞,IDF 越高。
- 應用: 關鍵字提取、文章搜尋權重。
3.2 Word2Vec (靜態詞向量)
利用淺層神經網路學習詞與詞之間的關係。主要有兩種架構:
- CBOW (Continuous Bag of Words): 用「周圍詞」預測「目標詞」。
- Skip-gram: 用「目標詞」預測「周圍詞」。(通常對罕見詞效果更好)
四、 深度學習模型架構 中級鑑別點
RNN 家族
- RNN: 具備循環路徑,適合序列資料。缺點是會有梯度消失 (Vanishing Gradient),無法記住太長的資訊。
- LSTM: 引入遺忘門 (Forget Gate) 等,大幅改善長距離記憶問題。
- GRU: LSTM 的簡化版,計算速度快。
Transformer 家族
- 核心機制: 注意力機制 (Self-Attention)。
- 優點: 可平行計算 (Parallelism),且不受距離限制,直接捕捉全句關聯。
- BERT: Bidirectional Encoder (雙向),擅長理解上下文。
- GPT: Generative Pre-trained (單向),擅長文本生成。
BERT 的訓練重點:
- MLM (Masked Language Model): 遮住 15% 的詞讓模型猜測 (類似克漏字)。
- NSP (Next Sentence Prediction): 判斷兩句話是否為前後文關係。
五、 NLP 實務應用與評估指標
5.1 應用任務分類
- 情感分析 (Sentiment Analysis): 判斷正負面評價 (常用於公關監測)。
- 命名實體識別 (NER): 識別地名、人名、日期等 (常用於資訊擷取)。
- 閱讀理解 (MRC): 給予文章與問題,讓 AI 找出答案。
5.2 評估指標
- Perplexity (困惑度): 常用於評估語言模型。數值越低代表模型越好。
- BLEU Score: 用於機器翻譯,比較生成的句子與參考答案的重合度。
- ROUGE: 常用於自動摘要評估。
沒有留言:
張貼留言