BlazingText 超参数 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

BlazingText 超参数

在使用 CreateTrainingJob 请求开始训练作业时,可指定训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string BlazingText 算法的超参数取决于您使用的模式:Word2Vec(无监督)和文本分类(监督)。

Word2Vec 超参数

下表列出了亚马逊提供的 BlazingText Word2Vec 训练算法的超参数。 SageMaker

参数名称 描述
mode

用于训练的 Word2vec 架构。

必填

有效值:batch_skipgramskipgramcbow

batch_size

mode 设置为 batch_skipgram 时的每个批处理的大小。设置为一个介于 10 和 20 之间的数字。

可选

有效值:正整数

默认值:11

buckets

要用于子词的哈希存储桶的数量。

可选

有效值:正整数

默认值:2000000

epochs

传递训练数据的次数。

可选

有效值:正整数

默认值:5

evaluation

是否使用 WordSimilarity-353 检验对训练后的模型进行评估。

可选

有效值:(布尔值)TrueFalse

默认值:True

learning_rate

用于参数更新的步长大小。

可选

有效值:正浮点数

默认值:0.05

min_char

要用于子词/支付 n-grams 的字符的最小数目。

可选

有效值:正整数

默认值:3

min_count

出现少于 min_count 次的单词将被丢弃。

可选

有效值:非负整数

默认值:5

max_char

要用于子词/支付 n-grams 的字符的最大数目

可选

有效值:正整数

默认值:6

negative_samples

负采样共享策略的负采样数。

可选

有效值:正整数

默认值:5

sampling_threshold

单词出现次数的阈值。对训练数据中出现频率较高的单词进行随机下采样。

可选

有效值:正分数。建议的范围为 (0, 1e-3]

默认值:0.0001

subwords

是否学习子词嵌入。

可选

有效值:(布尔值)TrueFalse

默认值:False

vector_dim

该算法学习的单词向量的维度。

可选

有效值:正整数

默认值:100

window_size

上下文窗口的大小。上下文窗口是用于训练的目标单词周围的单词数。

可选

有效值:正整数

默认值:5

文本分类超参数

下表列出了 Amazon SageMaker 提供的文本分类训练算法的超参数。

注意

虽然文本分类模式和 Word2Vec 模式之间的某些参数很常见,但根据上下文的不同,它们可能有不同的含义。

参数名称 描述
mode

训练模式。

必填

有效值:supervised

buckets

要用于单词 n-grams 的哈希存储桶的数量。

可选

有效值:正整数

默认值:2000000

early_stopping

是否在验证准确率在 patience 个纪元后未提高的情况下时停止训练。请注意,如果使用提前停止,则需要验证通道。

可选

有效值:(布尔值)TrueFalse

默认值:False

epochs

完成传递训练数据的最大次数。

可选

有效值:正整数

默认值:5

learning_rate

用于参数更新的步长大小。

可选

有效值:正浮点数

默认值:0.05

min_count

出现少于 min_count 次的单词将被丢弃。

可选

有效值:非负整数

默认值:5

min_epochs

调用提前停止逻辑之前训练的最小纪元数。

可选

有效值:正整数

默认值:5

patience

当验证集没有任何进展时,在应用提前停止之前等待的纪元数。仅当 early_stoppingTrue 时使用。

可选

有效值:正整数

默认值:4

vector_dim

嵌入层的维度。

可选

有效值:正整数

默认值:100

word_ngrams

要使用的单词 n-gram 特征的数量。

可选

有效值:正整数

默认值:2