本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
集合類型
集合類型提供了一種組織和結構化資料的方法,以便有效地檢索和分析。它們在機器學習 (ML) 資料庫中用於定義資料集及其元素的模式。在 Amazon SageMaker Feature Store 中,支援的集合類型包括清單、集和向量。
集合是一組元素,其中集合中的每個元素必須具有相同的特徵類型 (String
Integral
或 Fractional
)。例如,集合可以包含所有元素特徵類型為 Fractional
的元素,但集合不能包含具有某些特徵類型為 Fractional
的元素,並且某些特徵類型為 String
。
目前只有 InMemory
線上儲存特徵群組支援集合類型。下方清單描述集合類型選項。
清單:元素的有序集合。
-
清單的長度由集合中的元素數量決定。
-
範例:您可以有一個如 [‘a’, ‘b’, ‘a’] 這樣的清單,因為清單保留了順序並且可以有重複的元素。
集合:唯一元素的無序集合。
-
集合的長度由集合中的唯一元素數量決定。
-
例如:您不能有如 [‘a’, 'b', 'a'] 這樣的集合,因為它包含一個重複的元素。該集合將具有元素 [‘a’, ‘b’],因為該集合僅包含唯一的元素。
向量:代表固定大小的元素陣列的專用清單。元素的順序具有意義,使得元素的位置代表資料的某些屬性。
-
向量集合類型中的元素必須具有
Fractional
特徵類型。 -
每個線上儲存
InMemory
層特徵群組只能有一個向量集合類型。 -
向量的尺寸 (向量中的元素數目) 由您預先決定,並使用
VectorDimension
指定。最大尺寸限制為 8192。 -
例如:您可以有一個向量,例如 [4.2, -6.3, 4.2],其中第一個、第二個和第三個元素可以代表實體空間中的 x、y 和 z 位置。
集合的長度沒有限制,只要它們不超過記錄的大小上限。如需有關記錄的大小上限資訊,請參閱配額、命名規則與資料類型。