人工智慧技術應用規劃 | 單元 4.2 核心主題解析
一、 資料蒐集與標註規劃 核心基礎
AI 專案的成功 80% 取決於資料。導入規劃必須明確資料的來源與處理流程。
1.1 資料生命週期管理
- 資料採集: 確定資料源(資料庫、感測器、網路爬蟲)及採集頻率。
- 資料清洗: 處理重複、缺失值、異常值及雜訊。
- 隱私去識別化: 規劃如何處理個資(如遮罩、雜湊),以符合法規。
標註策略 (Annotation Strategy):
| 策略 | 說明 | 適用情境 |
|---|---|---|
| 人工標註 | 聘請專家或工讀生手動標記。 | 高品質需求、醫療/法律專業領域。 |
| 半監督標註 | 模型先預標註,人工再進行審核。 | 大規模資料、預算有限。 |
| 群眾外包 | 將任務發布至平台(如 MTurk)。 | 常識類任務(如圖中有幾隻狗)。 |
二、 模型選擇與算法規劃
規劃師須根據業務需求選擇最適合的模型,而非盲目追求最先進 (SOTA) 的模型。
2.1 模型評選準則
- 性能指標: 準確率、精確率、召回率是否達標?
- 推論效率: 預測時間 (Latency) 是否符合實際應用(如即時檢測需 < 30ms)?
- 可解釋性: 業務端是否需要理解 AI 決策邏輯?(金融、醫療高度要求)。
- 可維護性: 模型是否易於重新訓練與更新?
三、 基礎設施與運算資源規劃
根據預算與技術能力,決定運算環境的佈建策略。
雲端環境 (Cloud)
- 優點: 擴展性強、隨租隨用、無需硬體維護。
- 代表: AWS Sagemaker, Azure ML, GCP Vertex AI。
在地部署 (On-Premise)
- 優點: 資料安全性高、長期成本可能較低、低延遲。
- 適用: 機密研發單位、政府、半導體廠。
邊緣運算 (Edge Computing) 規劃:
若 AI 需部署於無網路環境或需極低延遲,需規劃模型壓縮技術(如 量化 Quantization、剪枝 Pruning)以適應嵌入式硬體。
四、 專案時程與人力配置 PM 職能考點
AI 專案具有高度的不確定性,規劃時需預留迭代空間。
4.1 WBS (工作分解結構) 重點
- 環境建置: 算力資源與開發工具配置。
- 資料準備: 清洗與標註(通常佔比最長)。
- 原型開發 (PoC): 驗證模型可行性。
- 整合測試: 模型與前端/後端系統整合。
4.2 團隊核心成員角色
- 資料科學家: 負責演算法設計與訓練。
- 資料工程師: 負責資料管道 (Pipeline) 的自動化與存儲。
- AI 應用規劃師: 負責跨部門協調、定義需求、評估效益及風險。
- 領域專家 (SME): 提供標註準則及驗證 AI 回答的正確性。
五、 模型測試與驗證規劃
在正式上線前,必須確保模型的穩定性與邊界效能。
- A/B Testing: 讓部分用戶用新模型,部分用舊系統,對比實際效益。
- 壓力測試: 測試高併發請求下系統的負荷能力。
- 反向測試 (Backtesting): 使用歷史資料驗證模型預測結果。
- 對抗性測試: 故意輸入極端或攻擊性資料,檢查模型的防禦力。
沒有留言:
張貼留言