iPAS 多模態 AI (Multimodal AI) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.4 核心主題解析

一、 多模態 AI 基礎定義

多模態 AI (Multimodal AI) 指的是能夠處理、整合並理解 兩種或以上不同類型資料 (模態) 的人工智慧系統,例如:文本、影像、語音、視訊及感測器數據。

  • 模態 (Modality): 資訊發生或被感受到的特定方式。
  • 目標: 模擬人類感官,實現「聽、看、說、讀」的一體化理解。

二、 跨模態對齊與融合技術 必考核心

如何將性質完全不同的資料(如像素與單字)放在同一個數學空間中運算,是多模態技術的關鍵。

2.1 聯合表示 (Joint Representation)

將不同模態的特徵投影到同一個 共享特徵空間。代表技術:CLIP (對比學習)

多模態融合 (Fusion) 的三個層級:
融合層級說明優缺點
前期融合 (Early Fusion)在特徵提取階段就合併資料(特徵層級)。能捕捉低階關聯,但模態間差異大時難以對齊。
後期融合 (Late Fusion)各模態獨立決定結果,最後再加權投票(決策層級)。容錯性高,但忽略模態間的中期互動。
中期融合 (Intermediate)在神經網路的中間層進行交互(如 Attention 運算)。目前最主流,效果與靈活性平衡。

三、 代表性模型架構 中級鑑別點

3.1 CLIP (Contrastive Language-Image Pre-training)

由 OpenAI 提出,是現代多模態 AI 的基石。

  • 核心: 對比學習 (Contrastive Learning)。
  • 訓練方式: 給予大量「圖-文對」,拉近正確配對的距離,推開錯誤配對的距離。
  • 應用: 實現了 Zero-shot 影像分類,不需要標籤即可識別新類別。

3.2 多模態大型語言模型 (MLLM / LMM)

架構組成

通常由 Vision Encoder (如 ViT) + Connector (如 Q-Former) + LLM (如 Llama) 組成。

代表模型

  • GPT-4o: 原生多模態,支援即時影音互動。
  • LLaVA: 開源界著名的視覺語言模型。
  • Gemini: Google 的原生多模態模型。

四、 核心應用場景評估

iPAS 考試常考如何將技術落地於實際產業場景。

  • 圖文检索 (Cross-modal Retrieval): 用文字找圖,或用圖找相關描述。
  • 視覺問答 (VQA): 讓 AI 看圖回答問題 (如:圖中總共有幾個人?)。
  • 自動圖說生成 (Image Captioning): 描述影像內容,協助視障人士或內容檢索。
  • 多模態情緒識別: 結合人臉表情 (視覺) + 語氣 (語音) + 字眼 (文本) 判斷使用者情緒。
視訊理解 (Video Understanding) 的挑戰:

除了視覺特徵,還需處理 時間序列 (Temporal) 資訊。常用架構包括 3D-CNN 或結合 Transformer 的時空注意力機制。

五、 多模態技術的未來挑戰

  • 計算成本: 處理高解析度影像與長序列文本需要極高算力。
  • 資料偏差: 訓練用的「圖文對」可能存在性別或文化偏見。
  • 推理一致性: 模型有時會發生「視覺幻覺」(如:看到不存在的物體)。
  • 隱私與安全: 涉及臉部、語音等高敏感個資。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

Read More »

iPAS 生成式 AI (Generative AI) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.3 核心主題解析

一、 生成式 AI 基礎定義

生成式 AI (GenAI) 是人工智慧的一支,旨在 創造新內容 (如文本、影像、音訊、程式碼),而非僅僅對既有資料進行分類或預測。

  • 判別式模型 (Discriminative): 學習邊界,$P(y|x)$,用於分類 (如:這是不是貓?)。
  • 生成式模型 (Generative): 學習分布,$P(x,y)$ 或 $P(x)$,用於創造 (如:畫出一隻貓)。

二、 核心模型架構對比 必考核心

理解不同生成技術的運作邏輯是考試的基礎。

模型類別運作邏輯應考關鍵字
GAN (對抗網路)生成器 (G) 與判別器 (D) 互相博弈零和遊戲、容易訓練不穩
VAE (變分自編碼器)將資料壓縮至潛在空間 (Latent) 再還原機率分布、生成圖像較模糊
Diffusion (擴散模型)透過逐步「加噪」與「去噪」過程生成Stable Diffusion、逐步推論
Transformer基於注意力機制處理序列資料GPT、平行運算、長距離依賴
GAN 的組成細節:
  • 生成器 (Generator): 負責製造假資料騙過判別器。
  • 判別器 (Discriminator): 負責區分真資料與假資料。
  • 平衡: 當判別器無法區分真假 (準率約 0.5) 時,代表模型訓練接近理想。

三、 LLM 關鍵技術與微調 (Fine-tuning)

大型語言模型 (LLM) 的效能不僅來自參數量,更來自於精煉過程。

3.1 RLHF (基於人類回饋的強化學習)

這是讓 AI 變得「聽話」且「安全」的關鍵步驟。

  1. 預訓練 (Pre-training): 學習海量知識。
  2. SFT (監督式微調): 人類示範如何回答。
  3. 獎勵模型訓練: 人類對 AI 的多個回答進行排序。
  4. PPO 優化: 透過強化學習,讓模型傾向於獲得高分的回答。

3.2 參數高效微調 (PEFT)

LoRA (低秩自適應)

凍結原模型權重,僅外掛微小矩陣進行訓練。特點:節省 VRAM、部署快。

P-Tuning / Prompt Tuning

不改模型參數,而是學習一組「虛擬提示」的 Embedding 向量。特點:適用於跨任務部署。

四、 提示工程 (Prompt Engineering) 中級鑑別點

如何透過優化輸入 (Prompt) 來獲得更好的輸出結果。

  • Zero-shot: 不給範例,直接下指令。
  • Few-shot: 給予少數幾個範例 (In-context learning)。
  • CoT (思維鏈): 要求 AI 「一步一步思考」。顯著提升邏輯推理與數學題表現。
  • RAG (檢測增強生成): 模型生成前先去「查書」(外部知識庫),解決 幻覺 (Hallucination) 與時效性問題。
LLM 幻覺 (Hallucination):

指模型生成看似正確但事實錯誤的資訊。解決策略:RAG (外部搜尋)、設定更高的 Top-P/降低 Temperature、或是使用更強的模型。

五、 偏見、倫理與負面影響

iPAS 規劃師考試強調應用的安全性與合規性。

  • 偏見 (Bias): 來源於訓練資料的分布不均 (如性別、種族偏見)。
  • 版權問題: 生成內容是否侵犯原作者智慧財產權。
  • Deepfake: 利用生成技術製造假影像、假音訊進行詐騙或誤導。
  • 安全護欄 (Guardrails): 確保 AI 不會回答有害、暴力或違法內容。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

Read More »
>