Régler un modèle de k-moyennes - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Régler un modèle de k-moyennes

Le réglage de modèle automatique, ou réglage d'hyperparamètre, détecte la meilleure version d'un modèle en exécutant plusieurs tâches qui testent une plage d'hyperparamètres sur votre jeu de données. Vous choisissez les hyperparamètres réglables, une plage de valeurs pour chacun d'eux et une métrique d'objectif. Vous choisissez la métrique d'objectif parmi les métriques que calcule l'algorithme. Le réglage de modèle automatique recherche parmi les hyperparamètres choisis la combinaison de valeurs qui produira un modèle permettant d'optimiser la métrique d'objectif.

L'algorithme Amazon SageMaker k-means est un algorithme non supervisé qui regroupe les données dans des clusters dont les membres sont aussi similaires que possible. Comme il est non supervisé, l'algorithme n'utilise pas de jeu de données de validation par rapport auquel les hyperparamètres puissent être optimisés. En revanche, il accepte bel et bien un jeu de données de test et émet les métriques qui dépendent du carré de la distance entre les points de données et les centroïdes de cluster définitifs au terme de chaque exécution de l'entraînement. Pour rechercher le modèle qui contient les clusters les plus serrés sur le jeu de données de test, vous pouvez utiliser une tâche de réglage des hyperparamètres. Les clusters optimisent la similarité de leurs membres.

Pour plus d'informations sur le réglage de modèle, consultez Effectuez le réglage automatique du modèle avec SageMaker.

Métriques calculées par l'algorithme des k-moyennes

L'algorithme des k-moyennes calcule les métriques suivantes pendant l'entraînement. Lors du réglage d'un modèle, choisissez l'une de ces métriques comme métrique d'objectif.

Nom de la métrique Description Orientation de l'optimisation
test:msd

Distances quadratiques moyennes entre chaque enregistrement du jeu de test et le centre le plus proche du modèle.

Réduire

test:ssd

Somme des carrés des distances entre chaque enregistrement du jeu de test et le centre le plus proche du modèle.

Réduire

Hyper-paramètres des k-moyennes réglables

Réglez le modèle Amazon SageMaker k-means avec les hyperparamètres suivants. Les hyperparamètres qui ont le plus fort impact sur les métriques d'objectif des k-moyennes sont : mini_batch_size, extra_center_factor et init_method. Le réglage de l'hyperparamètre epochs se traduit généralement par des améliorations mineures.

Nom du paramètre Type de paramètre Plages recommandées
epochs

IntegerParameterGammes

MinValue: 1 h 10 MaxValue

extra_center_factor

IntegerParameterGammes

MinValue: 4 h 10 MaxValue

init_method

CategoricalParameterGammes

['kmeans++', 'random']

mini_batch_size

IntegerParameterGammes

MinValue: 3000, :15 000 MaxValue