調校 BlazingText 模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

調校 BlazingText 模型

自動模型調校,又稱為超參數調校,會透過在您的資料集上,執行許多測試超參數範圍的任務,來尋找最佳版本的模型。您可以選擇可調校的超參數、每一個超參數的值範圍,及目標指標。您可以從演算法運算的指標中選擇目標指標。自動模型調校會搜尋所選擇的超參數,以找出產生之模型可最佳化目標指標的值組合。

如需模型調校的詳細資訊,請參閱使用 SageMaker AI 自動調校模型

演算法運算的 BlazingText指標

BlazingText Word2Vec 演算法 (cbowskipgrambatch_skipgram 模式) 會在訓練期間報告單一指標:train:mean_rho。此指標是根據 WS-353 word similarity datasets 運算。針對 Word2Vec 演算法調校超參數值時,請使用此指標做為目標。

BlazingText 文字分類演算法 (supervised 模式) 也會在訓練期間報告單一指標:validation:accuracy。針對文字分類演算法調校超參數值時,請使用這些指標做為目標。

指標名稱 描述 最佳化方向
train:mean_rho

WS-353 word similarity datasets 上的平均 rho (Spearman 的排名關聯係數)

最大化

validation:accuracy

使用者指定驗證資料集上的分類準確度

最大化

可 BlazingText調校的超參數

Word2Vec 演算法可調校的超參數

使用下列超參數調校 Amazon SageMaker AI BlazingText Word2Vec 模型。對 Word2Vec 目標指標影響最大的超參數為:mode learning_ratewindow_sizevector_dimnegative_samples

參數名稱 參數類型 建議的範圍或值
batch_size

IntegerParameterRange

[8-32]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue:0.005, MaxValue:0.01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['batch_skipgram', 'skipgram', 'cbow']

negative_samples

IntegerParameterRange

[5-25]

sampling_threshold

ContinuousParameterRange

MinValue:0.0001, MaxValue:0.001

vector_dim

IntegerParameterRange

[32-300]

window_size

IntegerParameterRange

[1-10]

文字分類演算法可調校的超參數

使用下列超參數調校 Amazon SageMaker AI BlazingText 文字分類模型。

參數名稱 參數類型 建議的範圍或值
buckets

IntegerParameterRange

[1000000-10000000]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue:0.005, MaxValue:0.01

min_count

IntegerParameterRange

[0-100]

vector_dim

IntegerParameterRange

[32-300]

word_ngrams

IntegerParameterRange

[1-3]