翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
K-Means アルゴリズム
K-means は、教師なしの学習アルゴリズムです。これは、1 つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけようとします。類似度を決定するためにアルゴリズムで使用する属性を定義します。
Amazon は、ウェブスケールの k-means クラスタリングアルゴリズムの修正バージョン SageMaker を使用します。アルゴリズムの元のバージョンと比較して、Amazon が使用するバージョンの方が正確 SageMaker です。オリジナルのアルゴリズムと同様に、大規模なデータセットにスケールでき、トレーニング時間を改善します。これを行うために、Amazon が使用するバージョンは、トレーニングデータのミニバッチ (小さいランダムなサブセット) を SageMaker ストリーミングします。ミニバッチ k-means の詳細については、Web-scale k-means Clustering (ウェブスケールの k-means クラスタリング)
k-means アルゴリズムは表形式のデータを想定します。表の行はクラスタリングする観測値を表し、列は観測値の属性を表します。各行の n 属性は n 次元空間のポイントを表します。これらのポイント間のユークリッド距離は、対応する観測値の類似度を表します。アルゴリズムは、類似する属性値で観測値をグループ化します (これらの観測値に対応するポイントが近づきます)。Amazon での k-means の仕組みの詳細については SageMaker、「」を参照してくださいK-Means クラスタリングの仕組み。
トピック
k-means アルゴリズムの入出力インターフェイス
トレーニングの場合、k-means アルゴリズムは、データがトレーニングチャネル (S3DataDistributionType=ShardedByS3Key
を推奨) と、データをスコアリングするオプションのテストチャネル (S3DataDistributionType=FullyReplicated
を推奨) で提供されることを想定します。トレーニングでは recordIO-wrapped-protobuf
と CSV
の両方の形式がサポートされます。ファイルモードまたはパイプモードを使用すると、recordIO-wrapped-protobuf
または CSV
の形式のデータについてモデルをトレーニングできます。
推論の場合は、text/csv
、application/json
、および application/x-recordio-protobuf
がサポートされます。k-means は、観測値ごとに closest_cluster
ラベルと distance_to_cluster
を返します。
入出力ファイル形式の詳細については、k-means のレスポンス形式 (推論の場合) およびk-means サンプルノートブックを参照してください。k-means アルゴリズムは、トレーニングセットがラベル付きの「バッグ」で構成されている複数インスタンスの学習をサポートしていません。各バッグはラベルなしのインスタンスの集合です。
k-means アルゴリズムの EC2 インスタンスに関する推奨事項
k-means は CPU インスタンスでトレーニングすることをお勧めします。GPU インスタンスでトレーニングできますが、インスタンスあたり 1 つの GPU しか使用されないため、GPU トレーニングを単一 GPU インスタンス (ml.g4dn.xlarge など) に制限する必要があります。k-means アルゴリズムは、トレーニングと推論用の P2、P3、G4dn、G5 インスタンスをサポートします。
k-means サンプルノートブック
SageMaker K-means アルゴリズムを使用して米国郡の母集団を、プリンシパルコンポーネント分析を使用して識別された属性でセグメント化するサンプルノートブックについては、「Amazon を使用して母集団セグメンテーションの米国国勢調査データを分析する SageMaker