商帖小記 SomeTips: 03/31/26

iPAS 數值優化技術 (Numerical Optimization) 深度筆記

機器學習技術與應用 | 單元 3.3 核心主題解析

快速導覽：

1. 優化的核心：損失函數與目標
2. 梯度下降法 (Gradient Descent)
3. 優化器進化：從 SGD 到 Adam
4. 學習率 (Learning Rate) 的影響
5. 正則化與防止過擬合

一、優化的核心：損失函數與目標必考定義

機器學習的過程本質上是在 「尋找一組參數 $w$，使得損失函數 $L(w)$ 達到最小值」。優化技術就是指引模型如何調整參數的方法。

1.1 常見損失函數 (Loss Functions)

均方誤差 (MSE)： 常用於「回歸任務」。計算預測值與實際值之差的平方平均。
交叉熵 (Cross-Entropy)： 常用於「分類任務」。衡量兩個機率分佈的差異，數值越小代表預測越準。

凸函數 (Convex Function) 的物理意義：

若損失函數是「凸」的，則 局部最小值 (Local Minimum) 就是全局最小值 (Global Minimum)，優化過程最為簡單。非凸函數（如深度神經網路）則容易陷入局部陷阱。

二、梯度下降法 (Gradient Descent) 高頻考點

梯度代表函數上升最快的方向，因此「負梯度」方向就是下山最快的方向。

權重更新公式：
$w_{new} = w_{old} - \eta \cdot \nabla L(w)$
(其中 $\eta$ 為學習率，$\nabla L(w)$ 為梯度)

2.1 三種梯度下降策略比較

MBGD (小批量)

策略	說明	優點	缺點
BGD (批量)	使用「全量」資料計算梯度。	路徑穩定，保證收斂。	資料量大時計算極慢，記憶體溢出。
SGD (隨機)	隨機挑選「1 筆」資料計算。	計算速度極快。	路徑非常震盪，難以精確收斂。
挑選「一小群 (Batch)」資料。	工業界標準。兼顧穩定性與速度。	需額外調整 Batch Size。

三、優化器進化：從 SGD 到 Adam 演算法進階

為了克服基本 SGD 的收斂速度慢與震盪問題，科學家發展了多種進階優化器。

動量法 (Momentum)： 模擬物理動量，保留先前的更新趨勢。優點：加速通過平坦區，抑制震盪。
AdaGrad： 「自適應」調整學習率。頻繁更新的參數學習率調低，稀疏參數調高。缺點：後期學習率趨於 0，導致訓練停止。
RMSProp： 解決 AdaGrad 學習率遞減過快的問題，只參考近期的梯度大小。
Adam： 目前最主流優化器。結合了「動量」與「自適應學習率」的優點。

四、學習率 (Learning Rate, $\eta$) 的影響

學習率是 AI 訓練中最關鍵的「超參數 (Hyperparameter)」。

學習率設置情境：

學習率過大： 跨步過猛，會導致在最小值附近 震盪甚至發散，無法收斂。
學習率過小： 步履蹣跚，訓練 速度極慢，且容易陷入局部最小值。
學習率調度 (Scheduler)： 訓練初期大、後期小，是一種常見的優化策略。

五、正則化與防止過擬合應試大熱點

數值優化不僅要讓 Loss 變小，還要確保模型在測試集（未知資料）表現良好。

5.1 過擬合 (Overfitting) vs. 欠擬合 (Underfitting)

過擬合： 訓練 Loss 極低，測試 Loss 極高。模型「背死書」。
欠擬合： 訓練與測試 Loss 都很高。模型「學不會」。

正則化 (Regularization) 手段：

L1 正則化 (Lasso)： 增加絕對值權重懲罰。會產生「稀疏性」，起到 特徵選擇 的作用。
L2 正則化 (Ridge)： 增加平方權重懲罰。讓權重趨近於小數值，減少單一特徵的主導權，增加模型穩定性。
早停法 (Early Stopping)： 當驗證集 Loss 開始上升時即停止訓練。

🚩 考前速記口訣

🔸 梯度下降： 梯度是上坡，負梯是下坡，沿著負梯找低窩。
🔸 學習率： 大了會跳過、小了等太久，初期大、後期小最優秀。
🔸 優化器： 傳統 SGD 慢悠悠，Adam 自動最省心。
🔸 正則化： L1 刪特徵 (稀疏)，L2 縮權重，防止模型鑽牛角尖。
🔸 批量選擇： 大 Batch 穩定但吃記憶體，小 Batch 震盪但速度快。

iPAS 線性代數基礎 (Linear Algebra) 深度筆記

機器學習技術與應用 | 單元 3.2 核心主題解析

快速導覽：

1. 資料的幾何表示：向量與張量
2. 矩陣運算與線性轉換
3. 特徵值與特徵向量 (Eigenvalues)
4. 矩陣分解技術 (SVD)
5. 降維技術的數學基礎 (PCA)

一、資料的幾何表示：向量與張量必考定義

在 AI 中，資料不再是單一數字，而是存在於多維空間中的點或方向。

1.1 張量 (Tensor) 的層級

純量 (Scalar)： 0 維，單一數值（如：氣溫）。
向量 (Vector)： 1 維，一組數值。在 AI 中代表「特徵向量」。
矩陣 (Matrix)： 2 維，資料表形式。代表「樣本集」或「模型權重」。
張量 (Tensor)： 3 維以上。如：彩色影像（寬 × 高 × RGB 三通道）。

餘弦相似度 (Cosine Similarity)：

透過向量的內積 (Dot Product) 計算兩個向量夾角的餘弦值。常用於 NLP 文字語義相似度。夾角越小，餘弦值越接近 1，代表越相似。

二、矩陣運算與線性轉換

矩陣乘法 $Ax = b$ 在機器學習中具有強烈的物理意義：將向量 $x$ 從一個空間「轉換」到另一個空間。

2.1 關鍵運算與性質

轉置矩陣 (Transpose)： 行列互換 ($A^T$)。常用於計算協方差矩陣。
逆矩陣 (Inverse)： 若 $A \cdot A^{-1} = I$，代表該轉換可逆。若行列式 (Det) 為 0，則矩陣不可逆（奇異矩陣）。
矩陣乘法： 深度學習中神經元的神經傳導本質就是「矩陣（權重）與向量（輸入）的乘法」。

三、特徵值與特徵向量 (Eigenvalues & Eigenvectors) 演算法靈魂

當一個矩陣 $A$ 作用於特徵向量 $v$ 時，$v$ 的方向不變，僅長度縮放了 $\lambda$ 倍。

特徵方程式：
$Av = \lambda v$

為什麼特徵值重要？

在資料分析中，最大的特徵值 對應的方向代表了資料 變異量 (Variance) 最大 的方向。這就是找出資料主要特徵（主成分）的數學依據。

四、矩陣分解技術 (SVD)

奇異值分解 (Singular Value Decomposition) 是將複雜矩陣拆解為三個簡單矩陣乘積的過程。

4.1 SVD 的應用

推薦系統： 將「用戶-電影」矩陣分解，找出隱藏的偏好特徵（隱含語義分析）。
影像壓縮： 只保留較大的奇異值，剔除細微噪訊，達成壓縮效果。
穩定性： 與特徵分解不同，SVD 適用於任何形狀（非方陣）的矩陣。

五、降維技術的數學基礎 (PCA) 高頻考點

主成分分析 (Principal Component Analysis) 是線性代數在 AI 中最直接的應用。

PCA 的計算流程（邏輯理解）：

中心化： 將資料減去平均值，使重心位於原點。
協方差矩陣： 計算各特徵間的相關性。
特徵分解： 找出協方差矩陣的特徵向量。
投影： 將資料投影到前 $k$ 個特徵向量（主成分）上。

※ 目的：減少特徵數量、消除雜訊、解決多元共線性問題。

🚩 考前速記口訣

🔸 張量層級： 0 純、1 向、2 矩、3 以上叫張量。
🔸 相似度： 內積越大角越小，餘弦越近 1 越像。
🔸 特徵值： $Av = \lambda v$，方陣變換找方向。
🔸 SVD 分解： 非方陣也能拆，推薦壓縮都靠它。
🔸 PCA 降維： 找最大變異，丟掉小特徵，保留大能量。

iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

機器學習技術與應用 | 單元 3.1 核心主題解析

快速導覽：

1. 描述性統計：資料的縮影
2. 條件機率與貝氏定理
3. 常用機率分佈與應用場景
4. 統計推論：估計與檢定
5. 機器學習中的機率應用

一、描述性統計：資料的縮影必考基礎

描述性統計是用簡單的數值來概括大量資料的特徵，主要分為「集中趨勢」與「離散程度」。

1.1 集中趨勢 (Central Tendency)

平均數 (Mean)： 所有資料總和除以個數。容易受極端值影響。
中位數 (Median)： 資料排序後的中點。對極端值較具魯棒性 (Robust)。
眾數 (Mode)： 出現頻率最高的值。適用於類別型資料。

1.2 離散程度 (Dispersion)

變異數 (Variance)： 資料與平均值差異平方的平均。
標準差 (Standard Deviation)： 變異數的平方根，單位與原始資料一致。
四分位距 (IQR)： $Q3 - Q1$，用來識別異常值的基礎指標（通常大於 $1.5 \times IQR$ 為異常）。

二、條件機率與貝氏定理邏輯核心

貝氏定理是機器學習中「生成式模型」的基礎，用於在已知某些證據的情況下，更新對某一事件發生的信心。

貝氏定理公式：
$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$

關鍵術語解析：

事前機率 (Prior)： $P(A)$，在看到證據前的信念。
似然值 (Likelihood)： $P(B|A)$，假設 $A$ 成立下，看到證據 $B$ 的機率。
事後機率 (Posterior)： $P(A|B)$，看到證據 $B$ 後，修正對 $A$ 的信念。

※ 應試提醒：單純貝氏 (Naive Bayes) 分類器假設特徵之間「彼此獨立」，以簡化運算。

三、常用機率分佈與應用場景

選擇正確的分佈模型是規劃 AI 應用的第一步。

分佈名稱	特徵/情境	AI 應用範例
白努利分佈 (Bernoulli)	單次實驗，只有兩種結果 (0/1)。	預測單個廣告是否被點擊。
二項分佈 (Binomial)	$n$ 次獨立實驗中的成功次數。	預測 100 個零件中有幾個瑕疵品。
常態分佈 (Normal/Gaussian)	自然界最常見，呈鐘形曲線。	大多數模型的殘差假設、特徵標準化。
卜瓦松分佈 (Poisson)	單位時間/空間內事件發生次數。	預測每小時進入商店的客流量。

四、統計推論：估計與檢定

AI 不只是擬合模型，還需要驗證結果是否具有「統計顯著性」。

4.1 最大似然估計 (MLE)

尋找一組參數，使得觀察到的資料出現機率最大。這是許多機器學習演算法（如邏輯回歸）尋找權重的原理。

假設檢定 (Hypothesis Testing)：

虛無假設 ($H_0$)： 通常假設「沒有差異」或「效果為零」。
P-值 (P-value)： 若 $P < 0.05$，代表在 $H_0$ 成立下看到此結果的機率極低，故「拒絕 $H_0$」，承認具有顯著性。

五、機器學習中的機率應用整合考點

如何將上述數學連結到實際的模型開發？

損失函數 (Loss Functions)： 邏輯回歸使用的 Cross-Entropy 本質上源自資訊理論與機率對數。
機率輸出： 分類模型（如 Softmax）輸出的通常是屬於各類別的機率分佈，而非硬性標籤。
正規化與機率： L1/L2 正規化可以被解釋為給予權重不同的「事前分佈」(Prior)。

🚩 考前速記口訣

🔸 集中趨勢： 平均怕極端，中位最穩健，類別看眾數。
🔸 貝氏邏輯： 已知結果求原因，事前、似然求事後。
🔸 單純貝氏： 看到單純 (Naive) 就選「特徵獨立」。
🔸 分佈選擇： 連續看常態，次數看二項，時段次數看卜瓦松。
🔸 顯著水準： P 值小於點零五，顯著效果才算數。

訂閱：文章 (Atom)

iPAS 數值優化技術 (Numerical Optimization) 深度筆記

一、 優化的核心：損失函數與目標 必考定義

1.1 常見損失函數 (Loss Functions)

二、 梯度下降法 (Gradient Descent) 高頻考點

2.1 三種梯度下降策略比較

三、 優化器進化：從 SGD 到 Adam 演算法進階

四、 學習率 (Learning Rate, $\eta$) 的影響

五、 正則化與防止過擬合 應試大熱點

5.1 過擬合 (Overfitting) vs. 欠擬合 (Underfitting)

🚩 考前速記口訣

iPAS 線性代數基礎 (Linear Algebra) 深度筆記

一、 資料的幾何表示：向量與張量 必考定義

1.1 張量 (Tensor) 的層級

二、 矩陣運算與線性轉換

2.1 關鍵運算與性質

三、 特徵值與特徵向量 (Eigenvalues & Eigenvectors) 演算法靈魂

四、 矩陣分解技術 (SVD)

4.1 SVD 的應用

五、 降維技術的數學基礎 (PCA) 高頻考點

🚩 考前速記口訣

iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

一、 描述性統計：資料的縮影 必考基礎

1.1 集中趨勢 (Central Tendency)

1.2 離散程度 (Dispersion)

二、 條件機率與貝氏定理 邏輯核心

三、 常用機率分佈與應用場景

四、 統計推論：估計與檢定

4.1 最大似然估計 (MLE)

五、 機器學習中的機率應用 整合考點

🚩 考前速記口訣

一、優化的核心：損失函數與目標必考定義

二、梯度下降法 (Gradient Descent) 高頻考點

三、優化器進化：從 SGD 到 Adam 演算法進階

四、學習率 (Learning Rate, $\eta$) 的影響

五、正則化與防止過擬合應試大熱點

一、資料的幾何表示：向量與張量必考定義

二、矩陣運算與線性轉換

三、特徵值與特徵向量 (Eigenvalues & Eigenvectors) 演算法靈魂

四、矩陣分解技術 (SVD)

五、降維技術的數學基礎 (PCA) 高頻考點

一、描述性統計：資料的縮影必考基礎

二、條件機率與貝氏定理邏輯核心

三、常用機率分佈與應用場景

四、統計推論：估計與檢定

五、機器學習中的機率應用整合考點