Hiperparámetros de k-means - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Hiperparámetros de k-means

En la solicitud CreateTrainingJob, especifique el algoritmo de capacitación que desee utilizar. También puede especificar hiperparámetros específicos del algoritmo en forma de mapas. string-to-string En la siguiente tabla se enumeran los hiperparámetros del algoritmo de entrenamiento k-means proporcionado por Amazon. SageMaker Para obtener más información sobre cómo funciona la agrupación en clústeres de k-means, consulte Funcionamiento de la agrupación en clústeres de k-means.

Nombre del parámetro Descripción
feature_dim

El número de características en los datos de entrada.

Obligatorio

Valores válidos: número entero positivo

k

El número de clústeres necesarios.

Obligatorio

Valores válidos: número entero positivo

epochs

Número de pasadas realizadas sobre los datos de capacitación.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 1

eval_metrics

Una lista JSON de tipos de métrica usados para registrar una puntuación para el modelo. Los valores permitidos son msd para la desviación media cuadrática y ssd para la suma de distancia cuadrática. Si se proporcionan datos de prueba, la puntuación se expresa para cada una de las métricas solicitadas.

Opcional

Valores válidos: [\"msd\"] o [\"ssd\"] o [\"msd\",\"ssd\"].

Valor predeterminado: [\"msd\"]

extra_center_factor

El algoritmo crea K centros = num_clusters * extra_center_factor a medida que se ejecuta y reduce el número de centros de K a k cuando finaliza el modelo.

Opcional

Valores válidos: Un número entero positivo o auto.

Valor predeterminado: auto

half_life_time_size

Se utiliza para determinar el peso atribuido a una observación cuando se calcula una media de clúster. Esta ponderación se reduce exponencialmente a medida se observan más puntos. Cuando un punto es observado por primera vez, se le asigna un peso de 1 al calcular la media del clúster. El deterioro constante de la función de degradación exponencial constante se elige de modo que después de observar half_life_time_size los puntos, su peso es 1/2. Si se establece en 0, no hay ningún decremento.

Opcional

Valores válidos: número entero no negativo

Valor predeterminado: 0

init_method

El método mediante el que el algoritmo elige los centros de clúster iniciales. El procedimiento k-means estándar los elige de forma aleatoria. Un método alternativo k-means++ elige el primer centro de clúster de forma aleatoria. A continuación, extiende la posición del resto de clústeres iniciales mediante la ponderación de la selección de centros con una distribución de probabilidad que es proporcional al cuadrado de la distancia de los demás puntos de datos de centros existentes.

Opcional

Valores válidos: random o kmeans++

Valor predeterminado: random

local_lloyd_init_method

El método de inicialización para el procedimiento de optimización de expectativa (EM) de Lloyd empleado para crear los centros k que contienen el modelo final.

Opcional

Valores válidos: random o kmeans++

Valor predeterminado: kmeans++

local_lloyd_max_iter

El número máximo de iteraciones para el procedimiento de optimización de expectativa (EM) de Lloyd empleado para crear los centros k que contienen el modelo final.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 300

local_lloyd_num_trials

El número de veces que el procedimiento de optimización de expectativa (EM) de Lloyd con la menor pérdida se ejecuta a la hora de crear los centros que contienen el modelo final k.

Opcional

Valores válidos: Un número entero positivo o auto.

Valor predeterminado: auto

local_lloyd_tol

La tolerancia para cambio en pérdida para una detención anticipada del procedimiento de optimización de expectativa (EM) de Lloyd empleado para crear los centros k que contienen el modelo final.

Opcional

Valores válidos: número flotante. Rango en [0, 1].

Valor predeterminado: 0.0001

mini_batch_size

El número de observaciones por minilote para el iterador de datos.

Opcional

Valores válidos: número entero positivo

Valor predeterminado: 5000