k-NN 超參數 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

k-NN 超參數

下表列出您可以為 Amazon SageMaker k-nearest 鄰居 (k-NN) 演算法設定的超參數。

參數名稱 描述
feature_dim

輸入資料中的特徵數量。

必要

有效值:正整數。

k

近鄰的數量。

必要

有效值:正整數

predictor_type

用於資料標籤的推論類型。

必要

有效值:用於分類的分類器或用於迴歸的迴歸器

sample_size

要從訓練資料集抽樣的資料點數量。

必要

有效值:正整數

dimension_reduction_target

降低目標的目標維度。

當您指定 dimension_reduction_type 參數時,則為必要項目

有效值:大於 0 且小於 feature_dim 的正整數。

dimension_reduction_type

降維方法的類型。

選用

有效值:適用於隨機投影的 sign 或適用於快速 Johnson-Lindenstrauss 轉換的 fjlt

預設值:不降維

faiss_index_ivf_nlists

index_type或IVFFlat 時,要在索引中建構的 centroid 數目。IVFPQ

選用

有效值:正整數

預設值:auto,會解析為 sqrt(sample_size)

faiss_index_pq_m

index_type設定為 fais 時,要在索引中建構的向量子元件數量IVFPQ

FaceBook AI 相似性搜尋 (FAISS) 程式庫需要 的值faiss_index_pq_m是資料維度的分隔符。如果 faiss_index_pq_m 不是資料維度的除數,我們會將資料維度增加至可被 faiss_index_pq_m 整除的最小整數。如未套用任何降維,此演算法會新增零的填補。如果套用降維,此演算法會增加 dimension_reduction_target 超參數的值。

選用

有效值:下列正整數之一:1、2、3、4、8、12、16、20、24、28、32、40、48、56、64、96

index_metric

尋找近鄰時,測量點與點間距離的指標。以 index_type 設為 faiss.IVFPQ 訓練時,不支援 INNER_PRODUCT 距離和 COSINE 相似度。

選用

有效值:L2 代表 Euclidean-distance,INNER_PRODUCT 代表內產品距離,COSINE代表餘弦相似性。

預設值:L2

index_type

索引的類型。

選用

有效值:faiss.Flat faiss.IVFFlatfaiss.IVFPQ

預設值:faiss.Flat

mini_batch_size

資料反覆運算器每個微型批次的觀察項數量。

選用

有效值:正整數

預設值:5000