K-Means ハイパーパラメータ - Amazon SageMaker

K-Means ハイパーパラメータ

CreateTrainingJob リクエストで、使用するトレーニングアルゴリズムを指定します。また、アルゴリズム固有のハイパーパラメータを文字列から文字列へのマップとして指定することもできます。次の表に、Amazon SageMaker によって提供される k-means トレーニングアルゴリズムのハイパーパラメータを示します。k-means クラスタリングの仕組みの詳細については、「K-Means クラスタリングの仕組み」を参照してください。

Parameter Name 説明
feature_dim

入力データ内の特徴の数。

必須

有効な値: 正の整数

k

必要なクラスターの数。

必須

有効な値: 正の整数

epochs

トレーニングデータに対して実行するパスの数。

オプション

有効な値: 正の整数

デフォルト値: 1

eval_metrics

モデルのスコアを報告するために使用されるメトリクスタイプの JSON リスト。許容値は、平均二乗偏差の場合 msd、平方距離の合計の場合 ssd です。テストデータが提供されている場合は、リクエストされた各メトリクスのスコアが報告されます。

オプション

有効な値: [\"msd\"][\"ssd\"]、 または [\"msd\",\"ssd\"]

デフォルト値: [\"msd\"]

extra_center_factor

アルゴリズムは、実行時に K 個の中心 = num_clusters * extra_center_factor を作成し、モデルを完成させるときに中心の数を K から k に減らします。

オプション

有効な値: 正の整数または auto

デフォルト値: auto

half_life_time_size

クラスター平均を計算するときに観測に付ける重みを決定するために使用されます。この重みは、観測ポイントが増えるにつれて指数関数的に減衰します。ポイントが最初に観測される際、クラスターの平均の計算時に 1 の重みが割り当てられます。half_life_time_size ポイントを観測した後、その重みが 1/2 になるように、指数関数的減衰関数の減衰定数が選択されます。0 に設定した場合、減衰はありません。

オプション

有効な値: 負以外の整数

デフォルト値: 0

init_method

アルゴリズムが初期クラスターの中心を選択する方法。標準的な k-means アプローチがランダムに選択します。別の k-means++ 法では、初期クラスターの中心をランダムに選択します。さらに、既存の中心からの残りのデータポイントの距離の 2 乗に比例する確率分布で中心の選択に重み付けすることによって、残りの初期クラスターの位置を広げます。

オプション

有効な値: random または kmeans++

デフォルト値: random

local_lloyd_init_method

k 個の中心を含む最終モデルを構築するために使用された、ロイドの期待値最大化 (EM) 手順の初期化方法。

オプション

有効な値: random または kmeans++

デフォルト値: kmeans++

local_lloyd_max_iter

k 個の中心を含む最終モデルを構築するために使用された、ロイドの期待値最大化 (EM) 手順の最大反復回数。

オプション

有効な値: 正の整数

デフォルト値: 300

local_lloyd_num_trials

k 個の中心を含む最終モデルを構築するときに、最小の損失でロイドの期待値最大化 (EM) 手順が実行される回数。

オプション

有効な値: 正の整数または auto

デフォルト値: auto

local_lloyd_tol

k 個の中心を含む最終モデルを構築するために使用されたロイドの期待値最大化 (EM) 手順の早期停止における損失の変化の許容度。

オプション

有効な値: 浮動小数点数。[0, 1] の範囲です。

デフォルト値: 0.0001

mini_batch_size

データイテレーターのミニバッチごとの観測数。

オプション

有効な値: 正の整数

デフォルト値: 5000