集合類型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

集合類型

集合類型提供了一種組織和結構化資料的方法,以便有效地檢索和分析。它們在機器學習 (ML) 資料庫中用於定義資料集及其元素的模式。在 Amazon SageMaker Feature Store 中,支援的集合類型包括清單、集和向量。

集合是一組元素,其中集合中的每個元素必須具有相同的特徵類型 (String IntegralFractional)。例如,集合可以包含所有元素特徵類型為 Fractional 的元素,但集合不能包含具有某些特徵類型為 Fractional 的元素,並且某些特徵類型為 String

目前只有 InMemory 線上儲存特徵群組支援集合類型。下方清單描述集合類型選項。

清單:元素的有序集合。

  • 清單的長度由集合中的元素數量決定。

  • 範例:您可以有一個如 [‘a’, ‘b’, ‘a’] 這樣的清單,因為清單保留了順序並且可以有重複的元素。

集合:唯一元素的無序集合。

  • 集合的長度由集合中的唯一元素數量決定。

  • 例如:您不能有如 [‘a’, 'b', 'a'] 這樣的集合,因為它包含一個重複的元素。該集合將具有元素 [‘a’, ‘b’],因為該集合僅包含唯一的元素。

向量:代表固定大小的元素陣列的專用清單。元素的順序具有意義,使得元素的位置代表資料的某些屬性。

  • 向量集合類型中的元素必須具有 Fractional 特徵類型。

  • 每個線上儲存 InMemory 層特徵群組只能有一個向量集合類型。

  • 向量的尺寸 (向量中的元素數目) 由您預先決定,並使用 VectorDimension 指定。最大尺寸限制為 8192。

  • 例如:您可以有一個向量,例如 [4.2, -6.3, 4.2],其中第一個、第二個和第三個元素可以代表實體空間中的 x、y 和 z 位置。

集合的長度沒有限制,只要它們不超過記錄的大小上限。如需有關記錄的大小上限資訊,請參閱配額、命名規則與資料類型