人工智慧技術應用規劃 | 單元 3.4 核心主題解析
一、 多模態 AI 基礎定義
多模態 AI (Multimodal AI) 指的是能夠處理、整合並理解 兩種或以上不同類型資料 (模態) 的人工智慧系統,例如:文本、影像、語音、視訊及感測器數據。
- 模態 (Modality): 資訊發生或被感受到的特定方式。
- 目標: 模擬人類感官,實現「聽、看、說、讀」的一體化理解。
二、 跨模態對齊與融合技術 必考核心
如何將性質完全不同的資料(如像素與單字)放在同一個數學空間中運算,是多模態技術的關鍵。
2.1 聯合表示 (Joint Representation)
將不同模態的特徵投影到同一個 共享特徵空間。代表技術:CLIP (對比學習)。
| 融合層級 | 說明 | 優缺點 |
|---|---|---|
| 前期融合 (Early Fusion) | 在特徵提取階段就合併資料(特徵層級)。 | 能捕捉低階關聯,但模態間差異大時難以對齊。 |
| 後期融合 (Late Fusion) | 各模態獨立決定結果,最後再加權投票(決策層級)。 | 容錯性高,但忽略模態間的中期互動。 |
| 中期融合 (Intermediate) | 在神經網路的中間層進行交互(如 Attention 運算)。 | 目前最主流,效果與靈活性平衡。 |
三、 代表性模型架構 中級鑑別點
3.1 CLIP (Contrastive Language-Image Pre-training)
由 OpenAI 提出,是現代多模態 AI 的基石。
- 核心: 對比學習 (Contrastive Learning)。
- 訓練方式: 給予大量「圖-文對」,拉近正確配對的距離,推開錯誤配對的距離。
- 應用: 實現了 Zero-shot 影像分類,不需要標籤即可識別新類別。
3.2 多模態大型語言模型 (MLLM / LMM)
架構組成
通常由 Vision Encoder (如 ViT) + Connector (如 Q-Former) + LLM (如 Llama) 組成。
代表模型
- GPT-4o: 原生多模態,支援即時影音互動。
- LLaVA: 開源界著名的視覺語言模型。
- Gemini: Google 的原生多模態模型。
四、 核心應用場景評估
iPAS 考試常考如何將技術落地於實際產業場景。
- 圖文检索 (Cross-modal Retrieval): 用文字找圖,或用圖找相關描述。
- 視覺問答 (VQA): 讓 AI 看圖回答問題 (如:圖中總共有幾個人?)。
- 自動圖說生成 (Image Captioning): 描述影像內容,協助視障人士或內容檢索。
- 多模態情緒識別: 結合人臉表情 (視覺) + 語氣 (語音) + 字眼 (文本) 判斷使用者情緒。
除了視覺特徵,還需處理 時間序列 (Temporal) 資訊。常用架構包括 3D-CNN 或結合 Transformer 的時空注意力機制。
五、 多模態技術的未來挑戰
- 計算成本: 處理高解析度影像與長序列文本需要極高算力。
- 資料偏差: 訓練用的「圖文對」可能存在性別或文化偏見。
- 推理一致性: 模型有時會發生「視覺幻覺」(如:看到不存在的物體)。
- 隱私與安全: 涉及臉部、語音等高敏感個資。