iPAS 自然語言處理 (NLP) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.1 核心主題解析

一、 NLP 發展脈絡與定義

自然語言處理 (Natural Language Processing) 旨在消除人類語言 (自然語言) 與電腦處理 (程式語言) 之間的障礙。其發展可分為三個階段:

  • 規則導向 (Rule-based): 依賴語言學專家的語法規則 (如:If-Then)。
  • 統計導向 (Statistical NLP): 利用機率模型,如隱馬可夫模型 (HMM)。
  • 深度學習導向 (Neural NLP): 利用神經網路與大量資料學習特徵 (如:Transformer)。

二、 關鍵資料前處理技術 必考核心

2.1 中文斷詞 (Chinese Word Segmentation)

中文沒有空格,必須透過演算法識別詞界。常見工具:

  • Jieba (結巴): 支援繁中,常考其三種模式 (精確、全、搜索)。
  • CKIP (中研院): 準確率高,支援詞性標註 (POS Tagging)。
  • 難點: 歧義性 (Ambiguity) 如「結婚的和尚未結婚的」與新詞識別。
詞幹提取 (Stemming) vs. 詞形還原 (Lemmatization):
技術說明例子
Stemming基於啟發式規則「切除」字尾,速度快。cats -> cat, flying -> fly
Lemmatization基於字典與語法分析還原「原形」,精準度高。was -> be, mice -> mouse

三、 文本表徵演進 (Text Representation)

如何將文字轉為電腦可運算的數學向量。

3.1 TF-IDF (詞頻-逆文件頻率)

用於評估字詞對一份文件的重要程度。

Score = TF(t, d) × IDF(t)
  • TF (Term Frequency): 該詞在該文件中出現的頻率。越高代表該詞越重要。
  • IDF (Inverse Document Frequency): log(總文件數 / 包含該詞的文件數)。越罕見的詞,IDF 越高。
  • 應用: 關鍵字提取、文章搜尋權重。

3.2 Word2Vec (靜態詞向量)

利用淺層神經網路學習詞與詞之間的關係。主要有兩種架構:

  • CBOW (Continuous Bag of Words): 用「周圍詞」預測「目標詞」。
  • Skip-gram: 用「目標詞」預測「周圍詞」。(通常對罕見詞效果更好)

四、 深度學習模型架構 中級鑑別點

RNN 家族

  • RNN: 具備循環路徑,適合序列資料。缺點是會有梯度消失 (Vanishing Gradient),無法記住太長的資訊。
  • LSTM: 引入遺忘門 (Forget Gate) 等,大幅改善長距離記憶問題。
  • GRU: LSTM 的簡化版,計算速度快。

Transformer 家族

  • 核心機制: 注意力機制 (Self-Attention)。
  • 優點: 可平行計算 (Parallelism),且不受距離限制,直接捕捉全句關聯。
  • BERT: Bidirectional Encoder (雙向),擅長理解上下文。
  • GPT: Generative Pre-trained (單向),擅長文本生成。
BERT 的訓練重點:
  • MLM (Masked Language Model): 遮住 15% 的詞讓模型猜測 (類似克漏字)。
  • NSP (Next Sentence Prediction): 判斷兩句話是否為前後文關係。

五、 NLP 實務應用與評估指標

5.1 應用任務分類

  • 情感分析 (Sentiment Analysis): 判斷正負面評價 (常用於公關監測)。
  • 命名實體識別 (NER): 識別地名、人名、日期等 (常用於資訊擷取)。
  • 閱讀理解 (MRC): 給予文章與問題,讓 AI 找出答案。

5.2 評估指標

  • Perplexity (困惑度): 常用於評估語言模型。數值越低代表模型越好。
  • BLEU Score: 用於機器翻譯,比較生成的句子與參考答案的重合度。
  • ROUGE: 常用於自動摘要評估。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

沒有留言:

張貼留言

>