Hiperparâmetros de k-NN - Amazon SageMaker

Hiperparâmetros de k-NN

A tabela a seguir lista os hiperparâmetros que você pode definir para o algoritmo k-nearest neighbors (k-NN) do Amazon SageMaker.

Nome do parâmetro Descrição
feature_dim

O número de atributos nos dados de entrada.

Obrigatório

Valores válidos: inteiro positivo.

k

O número de vizinhos mais próximos.

Obrigatório

Valores válidos: inteiro positivo

predictor_type

O tipo de inferência a ser usada nos rótulos de dados.

Obrigatório

Valores válidos: classificador para classificação ou regressor para regressão.

sample_size

O número de pontos de dados dos quais obter uma amostra no conjunto de dados de treinamento.

Obrigatório

Valores válidos: inteiro positivo

dimension_reduction_target

A dimensão de destino para a qual reduzir.

Obrigatório quando você especifica o parâmetro dimension_reduction_type.

Valores válidos: inteiro positivo maior que 0 e menor que feature_dim.

dimension_reduction_type

O tipo de método de redução da dimensão.

Opcional

Valores válidos: sign para projeção aleatória ou fjlt para a transformação rápida de Johnson-Lindenstrauss.

Valor padrão: Nenhuma redução da dimensão

faiss_index_ivf_nlists

O número de centroides a serem construídos no índice quando index_type é faiss.IVFFlat ou faiss.IVFPQ.

Opcional

Valores válidos: inteiro positivo

Valor padrão: auto, que é resolvido como sqrt(sample_size).

faiss_index_pq_m

O número de subcomponentes vetoriais a serem construídos no índice quando index_type está definido como faiss.IVFPQ.

A biblioteca FaceBook AI Similarity Search (FAISS) requer que o valor de faiss_index_pq_m seja um divisor da dimensão de dados . Se faiss_index_pq_m não for um divisor da dimensão de dados, aumentaremos a dimensão de dados para o menor número inteiro divisível por faiss_index_pq_m. Se nenhuma redução de dimensão for aplicada, o algoritmo adicionará um preenchimento de zeros. Se a redução de dimensão for aplicada, o algoritmo aumentará o valor do hiperparâmetro dimension_reduction_target.

Opcional

Valores válidos: Um dos seguintes números inteiros positivos: 1, 2, 3, 4, 8, 12, 16, 20, 24, 28, 32, 40, 48, 56, 64, 96

index_metric

A métrica para medir a distância entre os pontos ao encontrar os vizinhos mais próximos. Ao treinar com index_type definido como faiss.IVFPQ, a distância INNER_PRODUCT e a similaridade COSINE não são compatíveis.

Opcional

Valores válidos: L2 para distância euclidiana, INNER_PRODUCT para distância interna do produto, COSINE para similaridade de cosseno.

Valor padrão: L2

index_type

O tipo de índice.

Opcional

Valores válidos: faiss.Flat, faiss.IVFFlat, faiss.IVFPQ.

Valores padrão: faiss.Flat

mini_batch_size

O número de observações por minilote para o iterador de dados.

Opcional

Valores válidos: inteiro positivo

Valor padrão: 5000