本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
調校 BlazingText 模型
自動模型調校,又稱為超參數調校,會透過在您的資料集上,執行許多測試超參數範圍的任務,來尋找最佳版本的模型。您可以選擇可調校的超參數、每一個超參數的值範圍,及目標指標。您可以從演算法運算的指標中選擇目標指標。自動模型調校會搜尋所選擇的超參數,以找出產生之模型可最佳化目標指標的值組合。
如需模型調校的詳細資訊,請參閱使用 SageMaker AI 自動調校模型。
演算法運算的 BlazingText指標
BlazingText Word2Vec 演算法 (cbow
、 skipgram
和 batch_skipgram
模式) 會在訓練期間報告單一指標:train:mean_rho
。此指標是根據 WS-353 word similarity datasets
BlazingText 文字分類演算法 (supervised
模式) 也會在訓練期間報告單一指標:validation:accuracy
。針對文字分類演算法調校超參數值時,請使用這些指標做為目標。
指標名稱 | 描述 | 最佳化方向 |
---|---|---|
train:mean_rho |
WS-353 word similarity datasets |
最大化 |
validation:accuracy |
使用者指定驗證資料集上的分類準確度 |
最大化 |
可 BlazingText調校的超參數
Word2Vec 演算法可調校的超參數
使用下列超參數調校 Amazon SageMaker AI BlazingText Word2Vec 模型。對 Word2Vec 目標指標影響最大的超參數為:mode
、 learning_rate
、window_size
、vector_dim
及 negative_samples
。
參數名稱 | 參數類型 | 建議的範圍或值 |
---|---|---|
batch_size |
|
[8-32] |
epochs |
|
[5-15] |
learning_rate |
|
MinValue:0.005, MaxValue:0.01 |
min_count |
|
[0-100] |
mode |
|
[ |
negative_samples |
|
[5-25] |
sampling_threshold |
|
MinValue:0.0001, MaxValue:0.001 |
vector_dim |
|
[32-300] |
window_size |
|
[1-10] |
文字分類演算法可調校的超參數
使用下列超參數調校 Amazon SageMaker AI BlazingText 文字分類模型。
參數名稱 | 參數類型 | 建議的範圍或值 |
---|---|---|
buckets |
|
[1000000-10000000] |
epochs |
|
[5-15] |
learning_rate |
|
MinValue:0.005, MaxValue:0.01 |
min_count |
|
[0-100] |
vector_dim |
|
[32-300] |
word_ngrams |
|
[1-3] |