iPAS 數值優化技術 (Numerical Optimization) 深度筆記

 

機器學習技術與應用 | 單元 3.3 核心主題解析

一、 優化的核心:損失函數與目標 必考定義

機器學習的過程本質上是在 「尋找一組參數 $w$,使得損失函數 $L(w)$ 達到最小值」。優化技術就是指引模型如何調整參數的方法。

1.1 常見損失函數 (Loss Functions)

  • 均方誤差 (MSE): 常用於「回歸任務」。計算預測值與實際值之差的平方平均。
  • 交叉熵 (Cross-Entropy): 常用於「分類任務」。衡量兩個機率分佈的差異,數值越小代表預測越準。
凸函數 (Convex Function) 的物理意義:

若損失函數是「凸」的,則 局部最小值 (Local Minimum) 就是全局最小值 (Global Minimum),優化過程最為簡單。非凸函數(如深度神經網路)則容易陷入局部陷阱。

二、 梯度下降法 (Gradient Descent) 高頻考點

梯度代表函數上升最快的方向,因此「負梯度」方向就是下山最快的方向。

權重更新公式:
$w_{new} = w_{old} - \eta \cdot \nabla L(w)$
(其中 $\eta$ 為學習率,$\nabla L(w)$ 為梯度)

2.1 三種梯度下降策略比較

  • MBGD (小批量)
  • 策略說明優點缺點
    BGD (批量)使用「全量」資料計算梯度。路徑穩定,保證收斂。資料量大時計算極慢,記憶體溢出。
    SGD (隨機)隨機挑選「1 筆」資料計算。計算速度極快。路徑非常震盪,難以精確收斂。
    挑選「一小群 (Batch)」資料。工業界標準。兼顧穩定性與速度。需額外調整 Batch Size。

    三、 優化器進化:從 SGD 到 Adam 演算法進階

    為了克服基本 SGD 的收斂速度慢與震盪問題,科學家發展了多種進階優化器。

    • 動量法 (Momentum): 模擬物理動量,保留先前的更新趨勢。優點:加速通過平坦區,抑制震盪。
    • AdaGrad: 「自適應」調整學習率。頻繁更新的參數學習率調低,稀疏參數調高。缺點:後期學習率趨於 0,導致訓練停止。
    • RMSProp: 解決 AdaGrad 學習率遞減過快的問題,只參考近期的梯度大小。
    • Adam: 目前最主流優化器。結合了「動量」與「自適應學習率」的優點。

    四、 學習率 (Learning Rate, $\eta$) 的影響

    學習率是 AI 訓練中最關鍵的「超參數 (Hyperparameter)」。

    學習率設置情境:
    • 學習率過大: 跨步過猛,會導致在最小值附近 震盪甚至發散,無法收斂。
    • 學習率過小: 步履蹣跚,訓練 速度極慢,且容易陷入局部最小值。
    • 學習率調度 (Scheduler): 訓練初期大、後期小,是一種常見的優化策略。

    五、 正則化與防止過擬合 應試大熱點

    數值優化不僅要讓 Loss 變小,還要確保模型在測試集(未知資料)表現良好。

    5.1 過擬合 (Overfitting) vs. 欠擬合 (Underfitting)

    • 過擬合: 訓練 Loss 極低,測試 Loss 極高。模型「背死書」。
    • 欠擬合: 訓練與測試 Loss 都很高。模型「學不會」。
    正則化 (Regularization) 手段:
    • L1 正則化 (Lasso): 增加絕對值權重懲罰。會產生「稀疏性」,起到 特徵選擇 的作用。
    • L2 正則化 (Ridge): 增加平方權重懲罰。讓權重趨近於小數值,減少單一特徵的主導權,增加模型穩定性。
    • 早停法 (Early Stopping): 當驗證集 Loss 開始上升時即停止訓練。

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

    Read More »

    iPAS 線性代數基礎 (Linear Algebra) 深度筆記

     

    機器學習技術與應用 | 單元 3.2 核心主題解析

    一、 資料的幾何表示:向量與張量 必考定義

    在 AI 中,資料不再是單一數字,而是存在於多維空間中的點或方向。

    1.1 張量 (Tensor) 的層級

    • 純量 (Scalar): 0 維,單一數值(如:氣溫)。
    • 向量 (Vector): 1 維,一組數值。在 AI 中代表「特徵向量」。
    • 矩陣 (Matrix): 2 維,資料表形式。代表「樣本集」或「模型權重」。
    • 張量 (Tensor): 3 維以上。如:彩色影像(寬 × 高 × RGB 三通道)。
    餘弦相似度 (Cosine Similarity):

    透過向量的內積 (Dot Product) 計算兩個向量夾角的餘弦值。常用於 NLP 文字語義相似度。夾角越小,餘弦值越接近 1,代表越相似。

    二、 矩陣運算與線性轉換

    矩陣乘法 $Ax = b$ 在機器學習中具有強烈的物理意義:將向量 $x$ 從一個空間「轉換」到另一個空間。

    2.1 關鍵運算與性質

    • 轉置矩陣 (Transpose): 行列互換 ($A^T$)。常用於計算協方差矩陣。
    • 逆矩陣 (Inverse): 若 $A \cdot A^{-1} = I$,代表該轉換可逆。若行列式 (Det) 為 0,則矩陣不可逆(奇異矩陣)。
    • 矩陣乘法: 深度學習中神經元的神經傳導本質就是「矩陣(權重)與向量(輸入)的乘法」。

    三、 特徵值與特徵向量 (Eigenvalues & Eigenvectors) 演算法靈魂

    當一個矩陣 $A$ 作用於特徵向量 $v$ 時,$v$ 的方向不變,僅長度縮放了 $\lambda$ 倍。

    特徵方程式:
    $Av = \lambda v$
    為什麼特徵值重要?

    在資料分析中,最大的特徵值 對應的方向代表了資料 變異量 (Variance) 最大 的方向。這就是找出資料主要特徵(主成分)的數學依據。

    四、 矩陣分解技術 (SVD)

    奇異值分解 (Singular Value Decomposition) 是將複雜矩陣拆解為三個簡單矩陣乘積的過程。

    4.1 SVD 的應用

    • 推薦系統: 將「用戶-電影」矩陣分解,找出隱藏的偏好特徵(隱含語義分析)。
    • 影像壓縮: 只保留較大的奇異值,剔除細微噪訊,達成壓縮效果。
    • 穩定性: 與特徵分解不同,SVD 適用於任何形狀(非方陣)的矩陣。

    五、 降維技術的數學基礎 (PCA) 高頻考點

    主成分分析 (Principal Component Analysis) 是線性代數在 AI 中最直接的應用。

    PCA 的計算流程(邏輯理解):
    1. 中心化: 將資料減去平均值,使重心位於原點。
    2. 協方差矩陣: 計算各特徵間的相關性。
    3. 特徵分解: 找出協方差矩陣的特徵向量。
    4. 投影: 將資料投影到前 $k$ 個特徵向量(主成分)上。

    ※ 目的:減少特徵數量、消除雜訊、解決多元共線性問題。

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

    Read More »

    iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

     

    機器學習技術與應用 | 單元 3.1 核心主題解析

    一、 描述性統計:資料的縮影 必考基礎

    描述性統計是用簡單的數值來概括大量資料的特徵,主要分為「集中趨勢」與「離散程度」。

    1.1 集中趨勢 (Central Tendency)

    • 平均數 (Mean): 所有資料總和除以個數。容易受極端值影響。
    • 中位數 (Median): 資料排序後的中點。對極端值較具魯棒性 (Robust)。
    • 眾數 (Mode): 出現頻率最高的值。適用於類別型資料。

    1.2 離散程度 (Dispersion)

    • 變異數 (Variance): 資料與平均值差異平方的平均。
    • 標準差 (Standard Deviation): 變異數的平方根,單位與原始資料一致。
    • 四分位距 (IQR): $Q3 - Q1$,用來識別異常值的基礎指標(通常大於 $1.5 \times IQR$ 為異常)。

    二、 條件機率與貝氏定理 邏輯核心

    貝氏定理是機器學習中「生成式模型」的基礎,用於在已知某些證據的情況下,更新對某一事件發生的信心。

    貝氏定理公式:
    $P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$
    關鍵術語解析:
    • 事前機率 (Prior): $P(A)$,在看到證據前的信念。
    • 似然值 (Likelihood): $P(B|A)$,假設 $A$ 成立下,看到證據 $B$ 的機率。
    • 事後機率 (Posterior): $P(A|B)$,看到證據 $B$ 後,修正對 $A$ 的信念。

    ※ 應試提醒:單純貝氏 (Naive Bayes) 分類器假設特徵之間「彼此獨立」,以簡化運算。

    三、 常用機率分佈與應用場景

    選擇正確的分佈模型是規劃 AI 應用的第一步。

    分佈名稱特徵/情境AI 應用範例
    白努利分佈 (Bernoulli)單次實驗,只有兩種結果 (0/1)。預測單個廣告是否被點擊。
    二項分佈 (Binomial)$n$ 次獨立實驗中的成功次數。預測 100 個零件中有幾個瑕疵品。
    常態分佈 (Normal/Gaussian)自然界最常見,呈鐘形曲線。大多數模型的殘差假設、特徵標準化。
    卜瓦松分佈 (Poisson)單位時間/空間內事件發生次數。預測每小時進入商店的客流量。

    四、 統計推論:估計與檢定

    AI 不只是擬合模型,還需要驗證結果是否具有「統計顯著性」。

    4.1 最大似然估計 (MLE)

    尋找一組參數,使得觀察到的資料出現機率最大。這是許多機器學習演算法(如邏輯回歸)尋找權重的原理。

    假設檢定 (Hypothesis Testing):
    • 虛無假設 ($H_0$): 通常假設「沒有差異」或「效果為零」。
    • P-值 (P-value): 若 $P < 0.05$,代表在 $H_0$ 成立下看到此結果的機率極低,故「拒絕 $H_0$」,承認具有顯著性。

    五、 機器學習中的機率應用 整合考點

    如何將上述數學連結到實際的模型開發?

    • 損失函數 (Loss Functions): 邏輯回歸使用的 Cross-Entropy 本質上源自資訊理論與機率對數。
    • 機率輸出: 分類模型(如 Softmax)輸出的通常是屬於各類別的機率分佈,而非硬性標籤。
    • 正規化與機率: L1/L2 正規化可以被解釋為給予權重不同的「事前分佈」(Prior)。

    © iPAS AI 應用規劃師應考筆記系列 | 本內容參照科目三「機器學習技術與應用」學習指引

    Read More »
    >