プリンシパルコンポーネント分析 (PCA) アルゴリズム - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

プリンシパルコンポーネント分析 (PCA) アルゴリズム

PCA は、可能な限り多くの情報を保持しながら、データセット内の次元 (特徴量の数) を減少させようとする教師なし機械学習アルゴリズムです。これは、互いに相関しない元の特徴のコンポジットである、成分と呼ばれる新しい特徴のセットを見つけることで行われます。また、それらには制限が設けられているため、最初の成分はデータ内で考えられる最大の変動性、2 番目の成分は 2 番目に大きな変動性と続きます。

Amazon では SageMaker、 はシナリオに応じて 2 つのモードでPCA動作します。

  • regular: 疎データと標準的な数の観測および特徴を備えたデータセットの場合。

  • randomized: 多数の観測および特徴の両方を備えたデータセットの場合。このモードは近似アルゴリズムを使用します。

PCA は表形式データを使用します。

行は低次元空間に組み込む観測を表します。列は減少した近似を見つける特徴を表します。アルゴリズムは共分散行列 (または分散方式での近似値) を計算し、その後このサマリーに対して特異値分解を実行して、主成分を生成します。

PCA アルゴリズムの入出力インターフェイス

トレーニングの場合、 はトレーニングチャネルで提供されるデータをPCA期待し、オプションでテストデータセットに渡されるデータセットをサポートします。このデータセットは、最終的なアルゴリズムによってスコアリングされます。トレーニングでは recordIO-wrapped-protobufCSV の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf または CSV の形式のデータについてモデルをトレーニングできます。

推論の場合、 は text/csvapplication/json、および PCAをサポートしますapplication/x-recordio-protobuf。結果は application/json またはapplication/x-recordio-protobuf 形式のいずれかが "射影" のベクトルとともに返されます。

入出力ファイル形式の詳細については、PCA レスポンス形式 (推論の場合) およびPCA サンプルノートブックを参照してください。

EC2 PCAアルゴリズムのインスタンスレコメンデーション

PCA は、トレーニングCPUと推論のために および GPUインスタンスをサポートします。最もパフォーマンスの高いインスタンスタイプは、入力データの仕様に大きく依存します。GPU インスタンスの場合、 は P2, P3, G4dnPCAをサポートします。 G5

PCA サンプルノートブック

SageMaker プリンシパルコンポーネント分析アルゴリズムを使用してMNISTデータセット内の手書きの数字の画像を 0 から 9 まで分析する方法を示すサンプルノートブックについては、「 PCAを使用した の概要MNIST」を参照してください。で例を実行するために使用できる Jupyter Notebook インスタンスを作成してアクセスする手順については SageMaker、「」を参照してくださいAmazon SageMaker Notebook インスタンス。ノートブックインスタンスを作成して開いたら、SageMaker 「例」タブを選択すると、すべての SageMaker サンプルのリストが表示されます。NTM アルゴリズムを使用したサンプルノートブックのトピックモデリングについては、「Amazon アルゴリズムの概要」セクションを参照してください。ノートブックを開くには、その [Use (使用)] タブをクリックして [Create copy (コピーを作成)] を選択します。