調校 K 平均值模型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

調校 K 平均值模型

自動模型調校,又稱為超參數調校,會透過在您的資料集上,執行許多測試超參數範圍的任務,來尋找最佳版本的模型。您可以選擇可調校的超參數、每一個超參數的值範圍,及目標指標。您可以從演算法運算的指標中選擇目標指標。自動模型調校會搜尋所選擇的超參數,以找出產生之模型可最佳化目標指標的值組合。

Amazon SageMaker k-means 演算法是一種無監督演算法,可將資料分組到其成員盡可能相似的叢集中。因為不受監督,所以不使用可使用超參數最佳化的驗證資料集。但會採用測試資料集,根據資料點和每次訓練執行結束時之最終叢集質量中心間的距離平方發出指標。若要尋找報告測試資料集中最緊密叢集的模型,您可以使用超參數調校任務。叢集會最佳化其成員的相似度。

如需模型調校的詳細資訊,請參閱執行自動模型調整 SageMaker

依 K 平均值演算法計算的指標

k 平均值演算法會在訓練期間計算下列指標。調校模型時,請選擇這些指標的其中之一做為目標指標。

指標名稱 描述 最佳化方向
test:msd

測試集中每個記錄之間的均方距離和最近的模型中心。

最小化

test:ssd

測試集中每個記錄之間的距離平方和及最近的模型中心。

最小化

可調校 K 平均值超參數

使用以下超參數調整 Amazon SageMaker k 均值模型。對 k 平均值目標指標影響最大的超參數為:mini_batch_sizeextra_center_factorinit_method。調校超參數 epochs 通常會得到細微的改進結果。

參數名稱 參數類型 建議範圍
epochs

IntegerParameter範圍

MinValue:一、:十 MaxValue

extra_center_factor

IntegerParameter範圍

MinValue: 四、十 MaxValue

init_method

CategoricalParameter範圍

['kmeans++', 'random']

mini_batch_size

IntegerParameter範圍

MinValue:三千:15000 MaxValue