优化 LDA 模型 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

优化 LDA 模型

自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

LDA 是一种自主型主题建模算法,它尝试将一组观察(文档)描述为不同类别(主题)的组合。“每单词对数似然”(PWLL) 指标评估一组学习主题(LDA 模型)准确描述测试文档数据集的可能性。较大的 PWLL 值表明测试数据更可能由 LDA 模型描述。

有关模型优化的更多信息,请参阅自动调整模型 SageMaker

LDA 算法计算的指标

LDA 算法在训练期间报告单个指标:test:pwll。在优化模型时,选择此指标作为目标指标。

指标名称 描述 优化方向
test:pwll

测试数据集上的每单词对数似然。学习的 LDA 模型准确地描述测试数据集的可能性。

最大化

可优化的 LDA 超参数

您可以优化 LDA 算法的以下超参数。alpha0num_topics 这两个超参数都会影响到 LDA 目标指标 (test:pwll)。如果您还不知道这些超参数的最佳值(即最大化每单词对数似然并生成准确的 LDA 模型),则自动模型调整功能可以帮助您找出这些最佳值。

参数名称 参数类型 建议的范围
alpha0

ContinuousParameterRanges

MinValue: 0.1, MaxValue: 10

num_topics

IntegerParameterRanges

MinValue: 1, MaxValue: 150