商帖小記 SomeTips: Python 挑戰 ML (機器學習) -- 練習題 [2]

📝 測驗說明與操作指南（管線工程與實戰進階篇）

作答方式：請閱讀題目後，直接點擊下方您認為正確的選項（(A), (B), (C), (D)）。
即時判定：點擊選項後，系統會透過純 CSS 機制立即判定對錯。若答對，系統會顯示綠色提示；若答錯，系統會標示紅色，並為您同步標出真正的正確答案。
觀看解析：作答選定後，選項下方會自動展開詳細的管線與模型觀念解析，幫助您加深記憶。

⚠️ 注意：本測驗採用單次鎖定作答設計，點選任何選項後即無法更改，請確認思考後再點選。

Q1. 在線性迴歸的底層數學中，正規方程式（Normal Equation）的解為 w = (X^T X)^(-1) X^T y。若在 Python 中執行 np.linalg.inv(X.T @ X) 時拋出「Singular matrix（奇異矩陣）」錯誤，這在資料科學實務上通常代表什麼意義？

(A)特徵之間存在高度共線性（Multicollinearity），導致矩陣不可逆。(B)資料尚未進行標準化（Standardization），數值尺度差異過大。(C)目標變數 y 中包含了非數值的字串型態。(D)資料的樣本數大於特徵維度（N > D），導致矩陣過大無法計算。

✅ 答對了！

❌ 答錯了！

💡 解析：當特徵間存在完美或高度的線性相關（共線性）時，X^T X 的行列式會趨近於 0，成為不可逆的奇異矩陣，這會導致線性迴歸模型極度不穩定。

Q2. 在 NLP 任務或推薦系統中，常需要計算兩個文本向量 A 與 B 的餘弦相似度（Cosine Similarity）。下列哪一段 NumPy 程式碼能正確實現公式 (A · B) / (||A|| ||B||)？

(A)np.dot(A, B) / (np.linalg.norm(A) * np.linalg.norm(B))(B)np.cross(A, B) / (np.abs(A) * np.abs(B))(C)np.mean(A - B) ** 2(D)np.sum(A * B) / np.sqrt(np.sum(A) * np.sum(B))

✅ 答對了！

❌ 答錯了！

💡 解析：餘弦相似度的分子是兩向量的內積 np.dot，分母是兩向量的 L2 範數（長度）相乘 np.linalg.norm，此程式碼完美映射了數學定義。

Q3. 在訓練深度學習模型時，為什麼實務上經常優先選擇 Adam 優化器而不是傳統的 SGD（隨機梯度下降）？

(A)Adam 結合了動量（Momentum）與 RMSProp 的概念，能為每個參數自動計算適應性學習率（Adaptive Learning Rate）。(B)Adam 能保證在任何非凸最佳化問題中，都能找到全局最小值（Global Minimum）。(C)Adam 的記憶體消耗比 SGD 少一半，適合部署在邊緣裝置上。(D)Adam 不需要設定任何超參數（如初始學習率），可以做到完全自動化訓練。

✅ 答對了！

❌ 答錯了！

💡 解析：Adam 會追蹤梯度的歷史一階動量與二階動量，對不同更新頻率的參數給予不同的學習率，使其在複雜地形中收斂更快、更穩定。

Q4. 在使用 PyTorch 建構訓練迴圈（Training Loop）時，若發現訓練初期的 Loss 數值異常爆炸或降不下來，最可能是下列哪一個典型流程步驟被遺漏了？

(A)忘記在訓練前呼叫 model.eval()。(B)在 loss.backward() 之前，忘記呼叫 optimizer.zero_grad() 清空梯度。(C)未將資料轉換為 float64 高精度張量。(D)在計算 Loss 後，忘記呼叫 model.predict()。

✅ 答對了！

❌ 答錯了！

💡 解析：PyTorch 預設會「累積（accumulate）」梯度。若未清空，每次 backward 的梯度會不斷加總到前一次的結果上，導致參數更新步伐錯亂、Loss 爆炸。

Q5. 在進行機器學習分類任務時，若遇到模型輸出「極度自信卻完全預測錯誤」的情況（例如正確標籤為 1，模型卻輸出預測類別 0 的機率為 0.999），此時 Cross Entropy（交叉熵）Loss 函數會產生什麼特徵反應？

(A)Loss 值會受限於 1.0 以內，因為機率最大只有 1。(B)Loss 值會趨近於 0，因為模型的自信度很高。(C)交叉熵無法處理這種情況，必須改用 MSE（均方誤差）。(D)Loss 值會劇烈飆升至接近無限大，給予模型極大的懲罰。

✅ 答對了！

❌ 答錯了！

💡 解析：交叉熵公式中包含 -log(p)，當正確類別的預測機率 p 趨近於 0（即極度自信預測錯誤）時，log(p) 會趨近負無限大，產生極高的 Loss 懲罰。

Q6. 在 Python 中使用 Scikit-learn 計算二元分類模型的 AUC（ROC 曲線下面積）時，下列哪一種程式碼撰寫方式才是正確評估模型排序能力的實務標準？

(A)roc_auc_score(y_test, model.predict(X_test))(B)roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])(C)auc(y_test, model.predict(X_test))(D)accuracy_score(y_test, model.predict_proba(X_test)[:, 1])

✅ 答對了！

❌ 答錯了！

💡 解析：ROC 曲線依賴改變閾值來觀察 TPR 與 FPR 的變化，因此必須傳入「預測為正類的機率值」（predict_proba），邊界切分才能連續，反映真實 AUC 排序能力。

Q7. 資料前處理時，若某一數值特徵中存在極少數的「極端離群值（Extreme Outliers）」，此時對該特徵使用 StandardScaler（Z-score 標準化）會產生什麼負面影響？

(A)極端值會被自動裁剪（Clip）到區間 [-1, 1] 內，遺失原始資訊。(B)會引發 ValueError，因為 StandardScaler 無法處理超過 3 個標準差的數值。(C)極端值會大幅拉大標準差，導致正常數據的 Z-score 全部被擠壓在非常狹窄且接近 0 的區間內。(D)完全沒有負面影響，Z-score 本來就是為了消除離群值而設計的。

✅ 答對了！

❌ 答錯了！

💡 解析：StandardScaler 依賴平均值與標準差，極端值會嚴重扭曲這兩個統計量，使得標準化後的正常資料失去解析度，此時應改用基於分位數的 RobustScaler。

Q8. 除了進行特徵降維以減少運算量，主成分分析（PCA）在線性迴歸管線中經常被用來解決下列哪一種統計問題？

(A)解決特徵間的高度共線性（Multicollinearity）問題。(B)解決目標變數 y 的類別不平衡問題。(C)將非線性的決策邊界轉換為線性。(D)自動填補資料集中的遺漏值（Missing Values）。

✅ 答對了！

❌ 答錯了！

💡 解析：PCA 透過正交轉換，將原本高度相關的特徵投影到互相垂直（正交）的主成分軸上，轉換後的新特徵之間完全線性獨立，完美消除共線性。

Q9. 在物件偵測（Object Detection）任務中（如 YOLO），我們經常使用 IOU（Intersection over Union）來評估邊界框（Bounding Box）的準確度。若要用 Python 撰寫邏輯取得兩個框的「交集區域寬度」，概念上應如何計算？

(A)取兩框的中心點 X 座標相減取絕對值。(B)取兩框右邊界的最小值，減去兩框左邊界的最大值。(C)直接將兩框的寬度相加後除以 2。(D)取兩框左邊界的最小值，減去兩框右邊界的最大值。

✅ 答對了！

❌ 答錯了！

💡 解析：交集的左邊界是兩者「較右邊的左邊界 (max)」，右邊界是兩者「較左邊的右邊界 (min)」。兩者相減即可得到交集寬度（若為負數則代表無交集）。

Q10. 在醫療影像分割（Image Segmentation）任務中，為何實務上常偏好使用 Dice Coefficient（或 Dice Loss）而非二元交叉熵（BCE Loss）？

(A)因為 BCE 只能用於迴歸問題，無法用於像素級的分類。(B)局限於運算速度，Dice Loss 運算速度比 BCE 快上許多倍。(C)因為醫學影像中「病灶（前景）」與「正常組織（背景）」的像素數量常極度不平衡，Dice 直接針對重疊率進行優化，對不平衡更有韌性。(D)因為 Dice Loss 可以同時處理圖像的色彩飽和度與對比度異常。

✅ 答對了！

❌ 答錯了！

💡 解析：當前景極小時，BCE 模型只要全部預測為背景就能得到很低的 Loss。Dice 專注於衡量預測區域與真實區域的交集重疊程度，能有效克服嚴重的背景不平衡。

Q11. 在自然語言處理（NLP）的管線中，比起傳統的 TF-IDF，使用如 BERT 等現代語言模型的優勢在於能產生「上下文相關（Contextualized）」的向量。在 Python 實作中，這真實意味著什麼？

(A)BERT 產出的向量永遠是一維矩陣，而 TF-IDF 是二維矩陣。(B)同一個單字「bank」在「河堤 (river bank)」和「銀行 (bank account)」的句子中，BERT 會輸出完全不同的向量。(C)BERT 會自動將句子翻譯成多國語言後再進行向量化。(D)TF-IDF 無法處理英文以外的語言，而 BERT 可以。

✅ 答對了！

❌ 答錯了！

💡 解析：BERT 利用 Transformer 的自注意力機制，根據周圍的字詞動態計算編碼，這解決了一詞多義的問題；而 TF-IDF 或靜態 Word2Vec 對同一單字永遠給出固定的向量。

Q12. 在解讀影像辨識架構（如 VGG16）的 Keras model.summary() 時，對於記憶體和效能評估，下列關於卷積層（Conv2D）與全連接層（Dense）特性的敘述何者正確？

(A)全連接層（Dense）佔據了模型絕大多數的「權重參數數量」；而卷積層（Conv2D）消耗了最多的「特徵圖記憶體與運算量」。(B)兩者的參數數量通常剛好各佔 50%，平衡了模型的學習能力。(C)全連接層不具備任何可學習的參數，它僅負責輸出機率。(D)卷積層（Conv2D）佔據了模型絕大多數的權重參數數量，因為影像解析度很高。

✅ 答對了！

❌ 答錯了！

💡 解析：CNN 架構的特性在於：卷積層利用權重共享進行密集的滑動視窗運算（高計算量/高記憶體圖形）；而末端 Dense 層每個神經元皆須互連，導致參數暴增。這對硬體選型至關重要。

Q13. 使用 PyTorch 建立標準的深度學習訓練管線時，單一個 Step（批次資料）的正確執行順序為何？

(A)預測前向傳播 -> 計算 Loss -> 清空梯度 (zero_grad) -> 反向傳播 (backward) -> 更新權重 (step)(B)清空梯度 -> 更新權重 -> 預測前向傳播 -> 計算 Loss -> 反向傳播(C)反向傳播 -> 預測前向傳播 -> 計算 Loss -> 清空梯度 -> 更新權重(D)計算 Loss -> 更新權重 -> 清空梯度 -> 預測前向傳播 -> 反向傳播

✅ 答對了！

❌ 答錯了！

💡 解析：這是 PyTorch 標準且必須遵循的流程：y_pred = model(X) -> loss = criterion(...) -> optimizer.zero_grad() -> loss.backward() -> optimizer.step()。

Q14. 在探索式資料分析（EDA）中，當資料表含有多個數值變數時，我們常使用 Pandas 的 df.corr() 搭配 Seaborn 來快速診斷特徵間是否存在「共線性」。下列哪一種視覺化語法是實務上的最佳選擇？

(A)sns.histplot(df.corr())(B)sns.pairplot(df.corr())(C)sns.lineplot(data=df.corr())(D)sns.heatmap(df.corr(), annot=True)

✅ 答對了！

❌ 答錯了！

💡 解析：heatmap（熱力圖）能將相關係數矩陣用顏色深淺直觀地表現出來，加入 annot=True 更能直接在格子上顯示數值，是診斷多維度共線性的標準解法。

Q15. 在機器學習訓練中導入 CLR（Cyclical Learning Rates，循環學習率）策略，其背後最核心的優化（Optimization）考量是什麼？

(A)確保學習率永遠單調遞減，以達成穩定的數學收斂。(B)透過週期性地拉高學習率，幫助模型跳出局部最小值（Local Minima）或鞍點（Saddle Points）。(C)為了讓梯度爆炸（Gradient Explosion）時能自動把權重歸零重置。(D)強制減少訓練所需的總 epoch 數量，以最大程度節省雲端運算成本。

✅ 答對了！

❌ 答錯了！

💡 解析：在複雜的損失地形中，模型很容易陷入平緩的鞍點或局部盲區。CLR 故意在訓練過程中規律地放大步伐，賦予模型動能去跨越這些障礙，尋找全局更好的解。

Q16. 在觀看 Scikit-learn 或 Keras 訓練過程的學習曲線（Learning Curve）時，若發現「訓練集 Loss 穩步下降接近 0」，但「驗證集（Validation）Loss 下降到一半後卻開始反轉向上飆升」。這典型代表模型發生了什麼事？

(A)欠擬合（Underfitting），模型的複雜度不足以捕捉資料的基本規律。(B)資料產生了嚴重的資料外洩（Data Leakage）。(C)過擬合（Overfitting），模型過度記住了訓練資料的雜訊，失去對未知資料的泛化能力。(D)學習率設定過低，導致模型陷入了不可跨越的局部最小值。

✅ 答對了！

❌ 答錯了！

💡 解析：這是最標準的過擬合特徵圖形。模型在訓練集上表現趨近完美（Low Bias），但在沒看過的驗證集上徹底失敗（High Variance）。

Q17. 在 Pandas 進行資料清理時，若我們希望保留盡可能多的資料，且「只有當 age 欄位與 income 欄位同時都遺漏（NaN）」時，才將該筆資料列（Row）刪除。下列哪一行語法最為正確？

(A)df.dropna(subset=['age', 'income'], how='any')(B)df[['age', 'income']].dropna()(C)df.dropna(subset=['age', 'income'], how='all')(D)df.fillna(subset=['age', 'income'], method='ffill')

✅ 答對了！

❌ 答錯了！

💡 解析：subset 指定要檢查的特定欄位，how='all' 嚴格規定必須「所有」指定的欄位都為空值，該列才會被剔除，完美符合情境需求。

Q18. 在 Scikit-learn 中建立一個包含標準化（StandardScaler）與支持向量機（SVC）的管線 Pipeline([('scaler', StandardScaler()), ('clf', SVC())])。若想使用 GridSearchCV 調整 SVC 的 C 超參數，字典（Dictionary）中的 key 應該如何正確撰寫？

(A){'clf_C': [0.1, 1, 10]}(B){'SVC.C': [0.1, 1, 10]}(C){'clf__C': [0.1, 1, 10]}(D){'C': [0.1, 1, 10]}

✅ 答對了！

❌ 答錯了！

💡 解析：在 Pipeline 中針對特定步驟設定超參數，必須遵循「步驟名稱 + 雙底線 `__` + 參數名稱」的語法規則，以正確指引網格搜尋找對底層物件。

Q19. 在自然語言處理（NLP）中使用 TfidfVectorizer 將文章轉換為特徵矩陣，這個輸出的矩陣具有什麼典型的數學與矩陣特性？

(A)每個欄位之間保證完全正交無相關性（如同 PCA 的輸出）。(B)極度稀疏（Sparse）且高維度，多數元素皆為 0。(C)是一個對稱（Symmetric）的方陣。(D)稠密（Dense）且低維度，數值集中在 -1 到 1 之間。

✅ 答對了！

❌ 答錯了！

💡 解析：TF-IDF 矩陣的欄位是整個語料庫的所有詞彙。一篇文章只會包含其中極少數詞彙，因此矩陣中 99% 的數值都是 0，必須以稀疏矩陣格式儲存以節省記憶體。

Q20. 在梯度下降法中，加入「動量（Momentum）」機制的實務目的為何？這在 Python 實作中常透過設定 optim.SGD(..., momentum=0.9) 來達成。

(A)自動尋找與調優最佳的神經網路層數與節點數量。(B)強制隨機丟棄 10% 的批次資料，以防止模型過度記住特定特徵。(C)模擬物理學中的慣性，透過累積過去的梯度方向來加速穿越平坦區域，並減緩在狹長峽谷地形中的來回震盪。(D)讓每一次的梯度更新步長嚴格相等，確保訓練絕對不會發散。

✅ 答對了！

❌ 答錯了！

💡 解析：動量會記住上一步走的方向與速度。當方向一致時會加速前進；當遇到山谷兩壁反覆彈跳時，動量能抵消橫向震盪，集中力量往谷底前進。

Python 挑戰 ML (機器學習) -- 練習題 [2]

📝 測驗說明與操作指南（管線工程與實戰進階篇）

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

✅ 答對了！

❌ 答錯了！

沒有留言:

張貼留言