Hiperparâmetros do k-means - Amazon SageMaker

Hiperparâmetros do k-means

Na solicitação CreateTrainingJob, é especificado o algoritmo de treinamento que você deseja utilizar. Também é possível especificar hiperparâmetros específicos de algoritmo como mapas de string a string. A tabela a seguir lista os hiperparâmetros do algoritmo de treinamento k-means fornecido pelo Amazon SageMaker. Para obter mais informações sobre como funciona o clustering de k-means, consulte Como funciona o clustering do k-means.

Nome do parâmetro Descrição
feature_dim

O número de recursos nos dados de entrada.

Obrigatório

Valores válidos: inteiro positivo

k

O número de clusters necessários.

Obrigatório

Valores válidos: inteiro positivo

epochs

O número de passagens realizadas nos dados de treinamento.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 1

eval_metrics

Uma lista JSON de tipos de métrica usadas para relatar uma pontuação para o modelo. Os valores permitidos são msd para desvio quadrado médio e ssd para a soma da distância quadrada. Se os dados de teste forem fornecidos, a pontuação será relatada para cada uma das métricas solicitadas.

Opcional

Valores válidos: [\"msd\"] ou [\"ssd\"] ou [\"msd\",\"ssd\"].

Valor padrão: [\"msd\"]

extra_center_factor

O algoritmo cria os centros K = num_clusters * extra_center_factor durante sua execução e reduz o número de centros de K para k ao finalizar o modelo.

Opcional

Valores válidos: um número inteiro positivo ou auto.

Valor padrão: auto

half_life_time_size

Usado para determinar o peso dado a uma observação ao calcular uma média de cluster. Esse peso decai exponencialmente à medida que mais pontos são observados. Quando um ponto é observado pela primeira vez, é atribuído um peso de 1 ao calcular a média do cluster. A constante de degradação para a função de decaimento exponencial é escolhida de modo que após observar half_life_time_size pontos, seu peso seja de 1/2. Se definido como 0, não há degradação.

Opcional

Valores válidos: inteiro não negativo

Valor padrão: 0

init_method

Método pelo qual o algoritmo escolhe os centros de cluster iniciais. A abordagem k-means padrão as escolhe aleatoriamente. Um método alternativo k-means++ escolhe o primeiro centro de cluster aleatoriamente. Em seguida, ele distribui a posição dos demais grupos iniciais ponderando a seleção de centros com uma distribuição de probabilidade proporcional ao quadrado da distância dos demais pontos de dados dos centros existentes.

Opcional

Valores válidos: random ou kmeans++.

Valor padrão: random

local_lloyd_init_method

O método de inicialização para o procedimento de maximização da expectativa (EM) de Lloyd utilizado para construir o modelo final contendo k centros.

Opcional

Valores válidos: random ou kmeans++.

Valor padrão: kmeans++

local_lloyd_max_iter

O número máximo de iterações para o procedimento de maximização da expectativa (EM) de Lloyd utilizado para construir o modelo final contendo k centros.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 300

local_lloyd_num_trials

O número de vezes que o procedimento de maximização da expectativa (EM) de Lloyd com a menor perda é executado ao construir o modelo final contendo k centros.

Opcional

Valores válidos: um número inteiro positivo ou auto.

Valor padrão: auto

local_lloyd_tol

A tolerância para a mudança na perda de interrupção precoce do procedimento de maximização da expectativa (EM) de Lloyd utilizada para construir o modelo final contendo k centros.

Opcional

Valores válidos: flutuante. Intervalo em [0, 1].

Valor padrão: 0.0001

mini_batch_size

O número de observações por minilote para o iterador de dados.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 5000