K-Means 超参数 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

K-Means 超参数

CreateTrainingJob 请求中,您指定要使用的训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string下表列出了 Ama SageMaker zon AI 提供的 k 均值训练算法的超参数。有关 k-means 聚类工作原理的更多信息,请参阅K-Means 聚类的工作原理

参数名称 描述
feature_dim

输入数据中的特征数。

必填

有效值:正整数

k

所需聚类的数量。

必填

有效值:正整数

epochs

对训练数据完成的扫描次数。

可选

有效值:正整数

默认值:1

eval_metrics

用于报告模型分数的指标类型JSON列表。对于均方差,允许的值为 msd;对于平方距离和,允许的值为 ssd。如果提供了测试数据,则会针对所请求的每个指标报告分数。

可选

有效值:[\"msd\"][\"ssd\"][\"msd\",\"ssd\"]

默认值:[\"msd\"]

extra_center_factor

该算法会在运行时创建 K 个中心 = num_clusters * extra_center_factor,并在最终生成模型时将中心数量从 K 减少至 k

可选

有效值:正整数或 auto

默认值:auto

half_life_time_size

用于确定计算聚类均值时赋予观察的权重。随着观察到的点越来越多,此权重呈指数倍衰减。当首次观察到一个点的情况下,在计算聚类均值时,它的权重为 1。选择指数衰减函数的衰减常数,以便在观察 half_life_time_size 个点后,其权重为 1/2。如果设置为 0,则没有衰减。

可选

有效值:非负整数

默认值:0

init_method

算法选择初始聚类中心的方法。标准 k-means 方法会随机选择这些方法。备用 k-means++ 方法会随机选择第一个聚类中心。然后,它通过加权中心选择来扩展其余初始聚类的位置,其概率分布与其余数据点到现有中心的距离的平方成比例。

可选

有效值:randomkmeans++

默认值:random

local_lloyd_init_method

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的初始化方法。

可选

有效值:randomkmeans++

默认值:kmeans++

local_lloyd_max_iter

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的最大迭代次数。

可选

有效值:正整数

默认值:300

local_lloyd_num_trials

在构建包含 k 个中心的最终模型时,运行具有最小损失的劳埃德最大期望算法 (EM) 过程的次数。

可选

有效值:正整数或 auto

默认值:auto

local_lloyd_tol

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的提前停止损失变化的容忍度。

可选

有效值:浮点值。范围为 [0, 1]。

默认值:0.0001

mini_batch_size

用于数据迭代器的每个小批量的观察次数。

可选

有效值:正整数

默认值:5000