Ajustar um modelo BlazingText - Amazon SageMaker

Ajustar um modelo BlazingText

O ajuste automático de modelos, também conhecido como ajuste de hiperparâmetros, localiza a melhor versão de um modelo executando vários trabalhos que testam uma série de hiperparâmetros no seu conjunto de dados. Você escolhe os hiperparâmetros ajustáveis, um intervalo de valores para cada um e uma métrica objetiva. Você escolhe a métrica objetiva entre as métricas que o algoritmo calcula. O ajuste de modelo automático pesquisa os hiperparâmetros escolhidos para encontrar a combinação de valores que resultam no modelo que otimiza a métrica objetiva.

Para mais informações sobre o ajuste de modelos, consulte Ajuste automático de modelos com o SageMaker.

Métricas calculadas pelo algoritmo BlazingText

O algoritmo Word2Vec BlazingText (modos skipgram, cbow e batch_skipgram) relata uma única métrica durante o treinamento: train:mean_rho. Esta métrica é calculada em conjuntos de dados de semelhança de palavras WS-353. Ao ajustar os valores de hiperparâmetros para o algoritmo Word2Vec, use essa métrica como o objetivo.

O algoritmo de Classificação de texto BlazingText (modo supervised), também relata uma única métrica durante o treinamento: validation:accuracy. Ao ajustar os valores de hiperparâmetros para o algoritmo de classificação de texto, use estas métricas como o objetivo.

Nome da métrica Descrição Direção de otimização
train:mean_rho

O rho (coeficiente de correlação de classificação de Spearman) médio em conjuntos de dados de semelhança de palavras WS-353

Maximizar

validation:accuracy

A precisão da classificação no conjunto de dados de validação especificado pelo usuário

Maximizar

Hiperparâmetros BlazingText ajustáveis

Hyperparameters ajustáveis para o algoritmo Word2Vec

Ajuste um modelo Word2Vec BlazingText do Amazon SageMaker com os seguintes hiperparâmetros. Os hiperparâmetros que têm o maior impacto nas métricas objetivas de Word2Vec são: mode, learning_rate, window_size, vector_dim e negative_samples.

Nome do parâmetro Tipo de parâmetro Intervalos ou valores recomendados
batch_size

IntegerParameterRange

[8-32]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue: 0.005, MaxValue: 0.01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['batch_skipgram', 'skipgram', 'cbow']

negative_samples

IntegerParameterRange

[5-25]

sampling_threshold

ContinuousParameterRange

MinValue: 0.0001, MaxValue: 0.001

vector_dim

IntegerParameterRange

[32-300]

window_size

IntegerParameterRange

[1-10]

Hiperparâmetros ajustáveis para o algoritmo de classificação de texto

Ajuste um modelo de classificação de texto BlazingText do Amazon SageMaker com os seguintes hiperparâmetros.

Nome do parâmetro Tipo de parâmetro Intervalos ou valores recomendados
buckets

IntegerParameterRange

[1000000-10000000]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue: 0.005, MaxValue: 0.01

min_count

IntegerParameterRange

[0-100]

vector_dim

IntegerParameterRange

[32-300]

word_ngrams

IntegerParameterRange

[1-3]