本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
主成分分析 (PCA) 演算法
PCA是一種無監督的機器學習演算法,會嘗試減少資料集內的維度 (功能數量),同時仍保留盡可能多的資訊。透過找出一組稱為元件的新特徵來完成此目的,為與另一組特徵無關的複合原始特徵。它們也會受到限制,讓第一個元件說明資料中最有可能出現的變異、第二個元件中次有可能出現的變異,以此類推。
在 Amazon 中 SageMaker,根據情況以兩種模式PCA運行:
-
一般:針對含有稀疏資料的資料集以及中等數量的觀察與特徵。
-
隨機:針對含有大量觀察與特徵的資料集。此模式使用近似值演算法。
PCA使用表格數據。
行代表您想要在較低的維度空間內嵌的觀察。欄則代表您想要在尋找降低近似值的功能。演算法計算共變異數矩陣 (或者在分散方法中的預算值),接著在此摘要上執行單一值分解以生產主要元件。
演算法的輸入/輸出介面 PCA
對於訓練,PCA需要在訓練頻道中提供的資料,並選擇性地支援傳遞至測試資料集的資料集,該資料集由最終演算法評分。訓練支援 recordIO-wrapped-protobuf
和 CSV
兩種格式。您可以使用檔案模式或管道模式,以 recordIO-wrapped-protobuf
或 CSV
格式的資料來訓練模型。
對於推論、PCA支援text/csv
application/json
、和application/x-recordio-protobuf
. 結果將以含有向量 “投影” 的 application/json
或 application/x-recordio-protobuf
格式傳回。
如需輸入和輸出檔案格式的詳細資訊,請參閱適用於推論的PCA回應格式以及PCA 範例筆記本。
EC2PCA演算法的執行個體建議
PCA訓練CPU和推論的支援和GPU執行個體。哪些執行個體類型擁有最高效能大部分根據輸入資料的詳細規格而定。對於GPU執行個體,PCA支援 P2、P3、G4dn 和 G5。
PCA 範例筆記本
如需示範如何使用 SageMaker 主體元件分析演算法來分析MNIST資料集中從零到九的手寫數字影像的範例筆記本,請參閱使PCA用簡介MNIST