调整 IP 洞察模型 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

调整 IP 洞察模型

自动模型调整也称作超参数调整,通过对数据集运行多个作业来测试一系列超参数范围,以此来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

有关模型优化的更多信息,请参阅自动调整模型 SageMaker

IP 洞察算法计算的指标

Amazon SageMaker IP Insights 算法是一种无监督学习算法,用于学习 IP 地址和实体之间的关联。该算法训练一个鉴别器模型,该模型可以学习将观察到的数据点(正样本)与随机生成的数据点(负样本)区分开。通过 IP 洞察上的自动模型调整,可以帮助您找到能够最准确地区分未标注验证数据与自动生成的负样本的模型。验证数据集上的模型准确率由受试者操作特征曲线下的面积来衡量。此 validation:discriminator_auc 指标可以采用 0.0 到 1.0 之间的值,其中 1.0 表示完美的准确性。

IP 洞察算法计算验证期间的 validation:discriminator_auc 指标,其值用作为超参数调整进行优化的目标函数。

指标名称 描述 优化方向
validation:discriminator_auc

验证数据集上受试者操作特征曲线下的面积。验证数据集没有标注。曲线下方的区域 (AUC) 是一个指标,它描述了模型区分验证数据点与随机生成的数据点的能力。

最大化

可调整 IP 洞察超参数

您可以调整 SageMaker IP Insights 算法的以下超参数。

参数名称 参数类型 建议的范围
epochs

IntegerParameterRange

MinValue: 1, MaxValue: 100

learning_rate

ContinuousParameterRange

MinValue: 1e-4, MaxValue: 0.1

mini_batch_size

IntegerParameterRanges

MinValue: 100, MaxValue: 50000

num_entity_vectors

IntegerParameterRanges

MinValue: 10000, MaxValue: 1000000

num_ip_encoder_layers

IntegerParameterRanges

MinValue: 1, MaxValue: 10

random_negative_sampling_rate

IntegerParameterRanges

MinValue: 0, MaxValue: 10

shuffled_negative_sampling_rate

IntegerParameterRanges

MinValue: 0, MaxValue: 10

vector_dim

IntegerParameterRanges

MinValue: 8, MaxValue: 256

weight_decay

ContinuousParameterRange

MinValue: 0.0, MaxValue: 1.0