商帖小記 SomeTips: iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

機器學習技術與應用 | 單元 3.1 核心主題解析

快速導覽：

1. 描述性統計：資料的縮影
2. 條件機率與貝氏定理
3. 常用機率分佈與應用場景
4. 統計推論：估計與檢定
5. 機器學習中的機率應用

一、描述性統計：資料的縮影必考基礎

描述性統計是用簡單的數值來概括大量資料的特徵，主要分為「集中趨勢」與「離散程度」。

1.1 集中趨勢 (Central Tendency)

平均數 (Mean)： 所有資料總和除以個數。容易受極端值影響。
中位數 (Median)： 資料排序後的中點。對極端值較具魯棒性 (Robust)。
眾數 (Mode)： 出現頻率最高的值。適用於類別型資料。

1.2 離散程度 (Dispersion)

變異數 (Variance)： 資料與平均值差異平方的平均。
標準差 (Standard Deviation)： 變異數的平方根，單位與原始資料一致。
四分位距 (IQR)： $Q3 - Q1$，用來識別異常值的基礎指標（通常大於 $1.5 \times IQR$ 為異常）。

二、條件機率與貝氏定理邏輯核心

貝氏定理是機器學習中「生成式模型」的基礎，用於在已知某些證據的情況下，更新對某一事件發生的信心。

貝氏定理公式：
$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$

關鍵術語解析：

事前機率 (Prior)： $P(A)$，在看到證據前的信念。
似然值 (Likelihood)： $P(B|A)$，假設 $A$ 成立下，看到證據 $B$ 的機率。
事後機率 (Posterior)： $P(A|B)$，看到證據 $B$ 後，修正對 $A$ 的信念。

※ 應試提醒：單純貝氏 (Naive Bayes) 分類器假設特徵之間「彼此獨立」，以簡化運算。

三、常用機率分佈與應用場景

選擇正確的分佈模型是規劃 AI 應用的第一步。

分佈名稱	特徵/情境	AI 應用範例
白努利分佈 (Bernoulli)	單次實驗，只有兩種結果 (0/1)。	預測單個廣告是否被點擊。
二項分佈 (Binomial)	$n$ 次獨立實驗中的成功次數。	預測 100 個零件中有幾個瑕疵品。
常態分佈 (Normal/Gaussian)	自然界最常見，呈鐘形曲線。	大多數模型的殘差假設、特徵標準化。
卜瓦松分佈 (Poisson)	單位時間/空間內事件發生次數。	預測每小時進入商店的客流量。

四、統計推論：估計與檢定

AI 不只是擬合模型，還需要驗證結果是否具有「統計顯著性」。

4.1 最大似然估計 (MLE)

尋找一組參數，使得觀察到的資料出現機率最大。這是許多機器學習演算法（如邏輯回歸）尋找權重的原理。

假設檢定 (Hypothesis Testing)：

虛無假設 ($H_0$)： 通常假設「沒有差異」或「效果為零」。
P-值 (P-value)： 若 $P < 0.05$，代表在 $H_0$ 成立下看到此結果的機率極低，故「拒絕 $H_0$」，承認具有顯著性。

五、機器學習中的機率應用整合考點

如何將上述數學連結到實際的模型開發？

損失函數 (Loss Functions)： 邏輯回歸使用的 Cross-Entropy 本質上源自資訊理論與機率對數。
機率輸出： 分類模型（如 Softmax）輸出的通常是屬於各類別的機率分佈，而非硬性標籤。
正規化與機率： L1/L2 正規化可以被解釋為給予權重不同的「事前分佈」(Prior)。

🚩 考前速記口訣

🔸 集中趨勢： 平均怕極端，中位最穩健，類別看眾數。
🔸 貝氏邏輯： 已知結果求原因，事前、似然求事後。
🔸 單純貝氏： 看到單純 (Naive) 就選「特徵獨立」。
🔸 分佈選擇： 連續看常態，次數看二項，時段次數看卜瓦松。
🔸 顯著水準： P 值小於點零五，顯著效果才算數。

商帖小記 SomeTips

iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

一、描述性統計：資料的縮影必考基礎

1.1 集中趨勢 (Central Tendency)

1.2 離散程度 (Dispersion)

二、條件機率與貝氏定理邏輯核心

三、常用機率分佈與應用場景

四、統計推論：估計與檢定

4.1 最大似然估計 (MLE)

五、機器學習中的機率應用整合考點

🚩 考前速記口訣

沒有留言:

張貼留言

iPAS 機率與統計基礎 (Prob & Stats) 深度筆記

一、 描述性統計：資料的縮影 必考基礎

1.1 集中趨勢 (Central Tendency)

1.2 離散程度 (Dispersion)

二、 條件機率與貝氏定理 邏輯核心

三、 常用機率分佈與應用場景

四、 統計推論：估計與檢定

4.1 最大似然估計 (MLE)

五、 機器學習中的機率應用 整合考點

🚩 考前速記口訣

沒有留言:

張貼留言

一、描述性統計：資料的縮影必考基礎

二、條件機率與貝氏定理邏輯核心

三、常用機率分佈與應用場景

四、統計推論：估計與檢定

五、機器學習中的機率應用整合考點