k-NN 超参数 - Amazon SageMaker

k-NN 超参数

下表列出了您可以为 Amazon SageMaker k 近邻 (k-NN) 算法设置的超参数。

参数名称 描述
feature_dim

输入数据中的特征数。

必填

有效值:正整数。

k

最近邻点的数量。

必填

有效值:正整数

predictor_type

要在数据标签上使用的推理类型。

必填

有效值:对于分类为 classifier;对于回归为 regressor

sample_size

要从训练数据集中采样的数据点数。

必填

有效值:正整数

dimension_reduction_target

要缩减到的目标维度。

在您指定 dimension_reduction_type 参数时必需

有效值:大于 0 且 feature_dim 小于的正整数。

dimension_reduction_type

维度缩减方法的类型。

可选

有效值:对于随机投影为 sign;对于快速 Johnson-Lindenstrauss 变换为 fjlt

默认值:不进行维度缩减

faiss_index_ivf_nlists

index_typefaiss.IVFFlatfaiss.IVFPQ 时,在索引中构建的质心数。

可选

有效值:正整数

默认值:auto,这将解析为 sqrt(sample_size)

faiss_index_pq_m

index_type 设置为 faiss.IVFPQ 时,要在索引中构造的向量子组件的数量。

FaceBook AI Similarity Search (FAISS) 库要求 faiss_index_pq_m 的值是 数据维度的除数。如果 faiss_index_pq_m 不是数据维度的除数,我们会将数据维度增加到可被 faiss_index_pq_m 整除的最小整数。如果未应用维度缩减,则算法会添加零填充。如果应用了维度缩减,算法会增加 dimension_reduction_target 超参数的值。

可选

有效值:下列正整数之一:1、2、3、4、8、12、16、20、24、28、32、40、48、56、64、96

index_metric

在查找最近邻点时用于测量点之间距离的指标。如果在训练时将 index_type 设置为 faiss.IVFPQ,则不支持 INNER_PRODUCT 距离和 COSINE 相似性。

可选

有效值:对于欧几里得距离为 L2,对于内积距离为 INNER_PRODUCT,对于余弦相似度为 COSINE

默认值:L2

index_type

索引类型。

可选

有效值:faiss.Flatfaiss.IVFFlatfaiss.IVFPQ

默认值:faiss.Flat

mini_batch_size

用于数据迭代器的每个小批量的观察次数。

可选

有效值:正整数

默认值:5000