商帖小記 SomeTips: iPAS 多模態 AI (Multimodal AI) 深度筆記

人工智慧技術應用規劃 | 單元 3.4 核心主題解析

快速導覽：

1. 多模態 AI 基礎定義
2. 跨模態對齊與融合技術
3. 代表性模型架構 (CLIP / MLLM)
4. 核心應用場景評估
5. 多模態技術的未來挑戰

一、多模態 AI 基礎定義

多模態 AI (Multimodal AI) 指的是能夠處理、整合並理解 兩種或以上不同類型資料 (模態) 的人工智慧系統，例如：文本、影像、語音、視訊及感測器數據。

模態 (Modality)： 資訊發生或被感受到的特定方式。
目標： 模擬人類感官，實現「聽、看、說、讀」的一體化理解。

二、跨模態對齊與融合技術必考核心

如何將性質完全不同的資料（如像素與單字）放在同一個數學空間中運算，是多模態技術的關鍵。

2.1 聯合表示 (Joint Representation)

將不同模態的特徵投影到同一個 共享特徵空間。代表技術：CLIP (對比學習)。

多模態融合 (Fusion) 的三個層級：

融合層級	說明	優缺點
前期融合 (Early Fusion)	在特徵提取階段就合併資料（特徵層級）。	能捕捉低階關聯，但模態間差異大時難以對齊。
後期融合 (Late Fusion)	各模態獨立決定結果，最後再加權投票（決策層級）。	容錯性高，但忽略模態間的中期互動。
中期融合 (Intermediate)	在神經網路的中間層進行交互（如 Attention 運算）。	目前最主流，效果與靈活性平衡。

三、代表性模型架構中級鑑別點

3.1 CLIP (Contrastive Language-Image Pre-training)

由 OpenAI 提出，是現代多模態 AI 的基石。

核心： 對比學習 (Contrastive Learning)。
訓練方式： 給予大量「圖-文對」，拉近正確配對的距離，推開錯誤配對的距離。
應用： 實現了 Zero-shot 影像分類，不需要標籤即可識別新類別。

3.2 多模態大型語言模型 (MLLM / LMM)

架構組成

通常由 Vision Encoder (如 ViT) + Connector (如 Q-Former) + LLM (如 Llama) 組成。

代表模型

GPT-4o： 原生多模態，支援即時影音互動。
LLaVA： 開源界著名的視覺語言模型。
Gemini： Google 的原生多模態模型。

四、核心應用場景評估

iPAS 考試常考如何將技術落地於實際產業場景。

圖文检索 (Cross-modal Retrieval)： 用文字找圖，或用圖找相關描述。
視覺問答 (VQA)： 讓 AI 看圖回答問題 (如：圖中總共有幾個人？)。
自動圖說生成 (Image Captioning)： 描述影像內容，協助視障人士或內容檢索。
多模態情緒識別： 結合人臉表情 (視覺) + 語氣 (語音) + 字眼 (文本) 判斷使用者情緒。

視訊理解 (Video Understanding) 的挑戰：

除了視覺特徵，還需處理 時間序列 (Temporal) 資訊。常用架構包括 3D-CNN 或結合 Transformer 的時空注意力機制。

五、多模態技術的未來挑戰

計算成本： 處理高解析度影像與長序列文本需要極高算力。
資料偏差： 訓練用的「圖文對」可能存在性別或文化偏見。
推理一致性： 模型有時會發生「視覺幻覺」(如：看到不存在的物體)。
隱私與安全： 涉及臉部、語音等高敏感個資。

🚩 考前速記口訣

🔸 Multimodal： 聽說讀看，融合為一。
🔸 CLIP： 圖文對齊，空間共享，零樣本分類最強。
🔸 Fusion： 前期合特徵，後期合決策，中期合網路。
🔸 MLLM： 視覺當眼，語言當腦，Connector 連接兩端。
🔸 VQA： 看圖說話，問答自如。

商帖小記 SomeTips

iPAS 多模態 AI (Multimodal AI) 深度筆記

一、多模態 AI 基礎定義

二、跨模態對齊與融合技術必考核心

2.1 聯合表示 (Joint Representation)

三、代表性模型架構中級鑑別點

3.1 CLIP (Contrastive Language-Image Pre-training)

3.2 多模態大型語言模型 (MLLM / LMM)

架構組成

代表模型

四、核心應用場景評估

五、多模態技術的未來挑戰

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 多模態 AI (Multimodal AI) 深度筆記

一、 多模態 AI 基礎定義

二、 跨模態對齊與融合技術 必考核心

2.1 聯合表示 (Joint Representation)

三、 代表性模型架構 中級鑑別點

3.1 CLIP (Contrastive Language-Image Pre-training)

3.2 多模態大型語言模型 (MLLM / LMM)

架構組成

代表模型

四、 核心應用場景評估

五、 多模態技術的未來挑戰

🚩 考前速記口訣

沒有留言:

張貼留言

一、多模態 AI 基礎定義

二、跨模態對齊與融合技術必考核心

三、代表性模型架構中級鑑別點

四、核心應用場景評估

五、多模態技術的未來挑戰