BlazingText 超参数

在使用 CreateTrainingJob 请求开始训练作业时，可指定训练算法。您还可以指定算法特定的超参数作为字符串到字符串映射。 BlazingText 算法的超参数取决于您使用的模式：Word2Vec（无监督）和文本分类（监督）。

Word2Vec 超参数

下表列出了 Amazon AI 提供的 BlazingText Word2Vec 训练算法的超参数。 SageMaker

参数名称	说明
`mode`	用于训练的 Word2vec 架构。必填有效值：`batch_skipgram`、`skipgram` 或 `cbow`
`batch_size`	在 `mode` 设置为 `batch_skipgram` 时的每个批处理的大小。设置为一个介于 10 和 20 之间的数字。可选有效值：正整数默认值：11
`buckets`	要用于子词的哈希存储桶的数量。可选有效值：正整数默认值：2000000
`epochs`	传递训练数据的次数。可选有效值：正整数默认值：5
`evaluation`	是否使用WordSimilarity-353 测试对训练后的模型进行评估。可选有效值：（布尔值）`True` 或 `False` 默认值：`True`
`learning_rate`	用于参数更新的步长大小。可选有效值：正浮点数默认值：0.05
`min_char`	用于 subwords/character n 元语法的最小字符数。可选有效值：正整数默认值：3
`min_count`	出现少于 `min_count` 次的单词将被丢弃。可选有效值： Non-negative 整数默认值：5
`max_char`	用于 subwords/character n 元语法的最大字符数可选有效值：正整数默认值：6
`negative_samples`	负采样共享策略的负采样数。可选有效值：正整数默认值：5
`sampling_threshold`	单词出现次数的阈值。对训练数据中出现频率较高的单词进行随机下采样。可选有效值：正分数。建议的范围为 (0, 1e-3] 默认值：0.0001
`subwords`	是否学习子词嵌入。可选有效值：（布尔值）`True` 或 `False` 默认值：`False`
`vector_dim`	该算法学习的单词向量的维度。可选有效值：正整数默认值：100
`window_size`	上下文窗口的大小。上下文窗口是用于训练的目标单词周围的单词数。可选有效值：正整数默认值：5

文本分类超参数

下表列出了 Amazon A SageMaker I 提供的文本分类训练算法的超参数。

注意

虽然文本分类模式和 Word2Vec 模式之间的某些参数很常见，但根据上下文的不同，它们可能有不同的含义。

参数名称	说明
`mode`	训练模式。必填有效值：`supervised`
`buckets`	要用于单词 n-grams 的哈希存储桶的数量。可选有效值：正整数默认值：2000000
`early_stopping`	是否在验证准确率在 `patience` 个纪元后未提高的情况下时停止训练。请注意，如果使用提前停止，则需要验证通道。可选有效值：（布尔值）`True` 或 `False` 默认值：`False`
`epochs`	完成传递训练数据的最大次数。可选有效值：正整数默认值：5
`learning_rate`	用于参数更新的步长大小。可选有效值：正浮点数默认值：0.05
`min_count`	出现少于 `min_count` 次的单词将被丢弃。可选有效值： Non-negative 整数默认值：5
`min_epochs`	调用提前停止逻辑之前训练的最小纪元数。可选有效值：正整数默认值：5
`patience`	当验证集没有任何进展时，在应用提前停止之前等待的纪元数。仅当 `early_stopping` 为 `True` 时使用。可选有效值：正整数默认值：4
`vector_dim`	嵌入层的维度。可选有效值：正整数默认值：100
`word_ngrams`	要使用的单词 n-gram 特征的数量。可选有效值：正整数默认值：2

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

BlazingText

模型优化