iPAS 多模態 AI (Multimodal AI) 深度筆記

 

人工智慧技術應用規劃 | 單元 3.4 核心主題解析

一、 多模態 AI 基礎定義

多模態 AI (Multimodal AI) 指的是能夠處理、整合並理解 兩種或以上不同類型資料 (模態) 的人工智慧系統,例如:文本、影像、語音、視訊及感測器數據。

  • 模態 (Modality): 資訊發生或被感受到的特定方式。
  • 目標: 模擬人類感官,實現「聽、看、說、讀」的一體化理解。

二、 跨模態對齊與融合技術 必考核心

如何將性質完全不同的資料(如像素與單字)放在同一個數學空間中運算,是多模態技術的關鍵。

2.1 聯合表示 (Joint Representation)

將不同模態的特徵投影到同一個 共享特徵空間。代表技術:CLIP (對比學習)

多模態融合 (Fusion) 的三個層級:
融合層級說明優缺點
前期融合 (Early Fusion)在特徵提取階段就合併資料(特徵層級)。能捕捉低階關聯,但模態間差異大時難以對齊。
後期融合 (Late Fusion)各模態獨立決定結果,最後再加權投票(決策層級)。容錯性高,但忽略模態間的中期互動。
中期融合 (Intermediate)在神經網路的中間層進行交互(如 Attention 運算)。目前最主流,效果與靈活性平衡。

三、 代表性模型架構 中級鑑別點

3.1 CLIP (Contrastive Language-Image Pre-training)

由 OpenAI 提出,是現代多模態 AI 的基石。

  • 核心: 對比學習 (Contrastive Learning)。
  • 訓練方式: 給予大量「圖-文對」,拉近正確配對的距離,推開錯誤配對的距離。
  • 應用: 實現了 Zero-shot 影像分類,不需要標籤即可識別新類別。

3.2 多模態大型語言模型 (MLLM / LMM)

架構組成

通常由 Vision Encoder (如 ViT) + Connector (如 Q-Former) + LLM (如 Llama) 組成。

代表模型

  • GPT-4o: 原生多模態,支援即時影音互動。
  • LLaVA: 開源界著名的視覺語言模型。
  • Gemini: Google 的原生多模態模型。

四、 核心應用場景評估

iPAS 考試常考如何將技術落地於實際產業場景。

  • 圖文检索 (Cross-modal Retrieval): 用文字找圖,或用圖找相關描述。
  • 視覺問答 (VQA): 讓 AI 看圖回答問題 (如:圖中總共有幾個人?)。
  • 自動圖說生成 (Image Captioning): 描述影像內容,協助視障人士或內容檢索。
  • 多模態情緒識別: 結合人臉表情 (視覺) + 語氣 (語音) + 字眼 (文本) 判斷使用者情緒。
視訊理解 (Video Understanding) 的挑戰:

除了視覺特徵,還需處理 時間序列 (Temporal) 資訊。常用架構包括 3D-CNN 或結合 Transformer 的時空注意力機制。

五、 多模態技術的未來挑戰

  • 計算成本: 處理高解析度影像與長序列文本需要極高算力。
  • 資料偏差: 訓練用的「圖文對」可能存在性別或文化偏見。
  • 推理一致性: 模型有時會發生「視覺幻覺」(如:看到不存在的物體)。
  • 隱私與安全: 涉及臉部、語音等高敏感個資。

© iPAS AI 應用規劃師應考筆記系列 | 本內容參照經濟部 iPAS 學習指引編撰

沒有留言:

張貼留言

>