主要元件分析 (PCA) 演算法 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

主要元件分析 (PCA) 演算法

PCA 是一種非監督式機器學習演算法,可嘗試減少資料集內的維度 (功能數量),同時盡可能保留資訊。透過找出一組稱為元件的新特徵來完成此目的,為與另一組特徵無關的複合原始特徵。它們也會受到限制,讓第一個元件說明資料中最有可能出現的變異、第二個元件中次有可能出現的變異,以此類推。

在 Amazon SageMaker AI 中, 有兩種PCA操作模式,視情況而定:

  • 一般:針對含有稀疏資料的資料集以及中等數量的觀察與特徵。

  • 隨機:針對含有大量觀察與特徵的資料集。此模式使用近似值演算法。

PCA 使用表格式資料。

行代表您想要在較低的維度空間內嵌的觀察。欄則代表您想要在尋找降低近似值的功能。演算法計算共變異數矩陣 (或者在分散方法中的預算值),接著在此摘要上執行單一值分解以生產主要元件。

PCA 演算法的輸入/輸出界面

針對訓練, PCA預期資料會在訓練管道中提供,並選擇性支援傳遞至測試資料集的資料集,該資料集由最終演算法評分。訓練支援 recordIO-wrapped-protobufCSV 兩種格式。您可以使用檔案模式或管道模式,以 recordIO-wrapped-protobufCSV 格式的資料來訓練模型。

對於推論, PCA支援 text/csvapplication/jsonapplication/x-recordio-protobuf。結果將以含有向量 “投影” 的 application/jsonapplication/x-recordio-protobuf 格式傳回。

如需輸入和輸出檔案格式的詳細資訊,請參閱適用於推論的PCA 回應格式以及PCA 範例筆記本

EC2 PCA演算法的執行個體建議

PCA 支援 CPU 和 GPU執行個體進行訓練和推論。哪些執行個體類型擁有最高效能大部分根據輸入資料的詳細規格而定。對於GPU執行個體, PCA支援 P2, P3, G4dn 和 G5。

PCA 範例筆記本

如需示範如何使用 SageMaker AI 主體元件分析演算法來分析MNIST資料集中從零到九的手寫數字影像的範例筆記本,請參閱PCA使用 的 簡介MNIST。如需如何建立和存取可用於在 SageMaker AI 中執行範例的 Jupyter 筆記本執行個體的說明,請參閱 Amazon SageMaker Notebook 執行個體。建立並開啟筆記本執行個體後,請選取 SageMaker AI 範例索引標籤以查看所有 SageMaker AI 範例的清單。使用NTM演算法建立主題模型的範例筆記本位於 Amazon 演算法簡介 區段中。若要開啟筆記本,請按一下其使用標籤,然後選取建立複本