As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Hiperparâmetros do IP Insights
Na solicitação CreateTransformJob
, é especificado o algoritmo de treinamento. Você também pode especificar hiperparâmetros específicos do algoritmo como mapas. string-to-string A tabela a seguir lista os hiperparâmetros do algoritmo Amazon SageMaker IP Insights.
Nome do parâmetro | Descrição |
---|---|
num_entity_vectors |
O número de representações vetoriais de entidades (vetores de incorporação de entidades) a serem treinadas. Cada entidade no conjunto de treinamento é aleatoriamente atribuída a um desses vetores usando uma função de hash. Por causa de colisões de hash, é possível ter várias entidades atribuídas ao mesmo vetor. Isso faria com que o mesmo vetor representasse várias entidades. Isso geralmente tem um efeito insignificante no desempenho do modelo, desde que a taxa de colisões não seja muito alta. Para manter a taxa de colisões baixa, defina esse valor o mais alto possível. No entanto, o tamanho do modelo e, portanto, o requisito de memória, tanto para treinamento quanto para inferência, são dimensionados linearmente com esse hiperparâmetro. Recomendamos que você defina esse valor como duas vezes o número de identificadores de entidade exclusivos. Obrigatório Valores válidos: 1 ≤ número inteiro positivo ≤ 250.000.000 |
vector_dim |
O tamanho dos vetores de incorporação para representar entidades e endereços IP. Quanto maior o valor, mais informações podem ser codificadas usando essas representações. Na prática, o tamanho do modelo é dimensionado linearmente com esse parâmetro e limita o tamanho da dimensão. Além disso, usar representações vetoriais muito grandes pode causar o sobreajuste do modelo, especialmente para conjuntos de dados de treinamento pequenos. O sobreajuste ocorre quando um modelo não aprende um padrão nos dados, mas memoriza efetivamente os dados de treinamento e, portanto, não pode generalizar bem e acaba apresentando um desempenho ruim durante a inferência. O valor recomendado é 128. Obrigatório Valores válidos: 4 ≤ número inteiro positivo ≤ 4096 |
batch_metrics_publish_interval |
O intervalo (a cada X lotes) no qual a função Speedometer do Apache MXNet imprime a velocidade de treinamento da rede (amostras/segundo). Opcional Valores válidos: número inteiro positivo ≥ 1 Valor padrão: 1,000 |
epochs |
O número de passagens nos dados de treinamento. O valor ideal depende do tamanho dos dados e da taxa de aprendizagem. Os valores típicos variam de 5 a 100. Opcional Valores válidos: número inteiro positivo ≥ 1 Valor padrão: 10 |
learning_rate |
A taxa de aprendizagem do otimizador. O IP Insights usa um otimizador gradient-descent-based Adam. A taxa de aprendizagem controla efetivamente o tamanho das etapas para atualizar os parâmetros do modelo em cada iteração. Uma taxa de aprendizagem muito grande pode fazer com que o modelo seja divergente, pois é provável que o treinamento ultrapasse um limite mínimo. Por outro lado, uma taxa de aprendizagem muito pequena retarda a convergência. Os valores típicos variam de 1e-4 a 1e-1. Opcional Valores válidos: 1e-6 ≤ flutuante ≤ 10.0 Valor padrão: 0.001 |
mini_batch_size |
O número de exemplos em cada minilote. O procedimento de treinamento processa os dados em minilotes. O valor ideal depende do número de identificadores de conta exclusivos no conjunto de dados. Em geral, quanto maior Opcional Valores válidos: 1 ≤ número inteiro positivo ≤ 500000 Valor padrão: 10,000 |
num_ip_encoder_layers |
O número de camadas totalmente conectadas usadas para codificar a incorporação do endereço IP. Quanto maior o número de camadas, maior a capacidade do modelo de capturar padrões entre endereços IP. No entanto, usar um número grande de camadas aumenta a chance de sobreajuste. Opcional Valores válidos: 0 ≤ número inteiro positivo ≤ 100 Valor padrão: 1 |
random_negative_sampling_rate |
O número de amostras negativas aleatórias, R, a serem geradas por exemplo de entrada. O procedimento de treinamento depende de amostras negativas para evitar que as representações vetoriais do modelo colapsem em um único ponto. A amostragem negativa aleatória gera R endereços IP aleatórios para cada conta de entrada no minilote. A soma de Opcional Valores válidos: 0 ≤ número inteiro positivo ≤ 500 Valor padrão: 1 |
shuffled_negative_sampling_rate |
O número de amostras negativas embaralhadas, S, a serem geradas por exemplo de entrada. Em alguns casos, é útil usar amostras negativas mais realistas e escolhidas aleatoriamente dos próprios dados de treinamento. Esse tipo de amostragem negativa é obtida ao embaralhar os dados em um minilote. A amostragem negativa aleatória gera S endereços IP negativos, embaralhando os pares de endereços IP e contas em um minilote. A soma de Opcional Valores válidos: 0 ≤ número inteiro positivo ≤ 500 Valor padrão: 1 |
weight_decay |
O coeficiente de degradação do peso. Esse parâmetro adiciona um fator de regularização L2 necessário para evitar que o modelo cause o sobreajuste dos dados de treinamento. Opcional Valores válidos: 0.0 ≤ flutuante ≤ 10.0 Valor padrão: 0.00001 |