Tipos de colección - Amazon SageMaker

Tipos de colección

Los tipos de colección proporcionan una forma de organizar y estructurar los datos para una recuperación y un análisis eficientes. Se utilizan en las bases de datos de ML para definir el esquema de un conjunto de datos y sus elementos. En el almacén de características de Amazon SageMaker, los tipos de colección compatibles incluyen lista, conjunto y vector.

Las colecciones son una agrupación de elementos en la que cada elemento de la colección debe tener el mismo tipo de característica (String, Integral o Fractional). Por ejemplo, una colección puede contener elementos con todos los tipos de características de los elementos como Fractional, pero una colección no puede contener elementos con algunos tipos de características como Fractional y algunos tipos de características como String.

Actualmente, solo los grupos de características del almacenamiento en línea InMemory admiten tipos de colección. En la siguiente lista se describen las opciones de tipo de colección.

Lista: una colección ordenada de elementos.

  • La longitud de la lista viene determinada por el número de elementos que hay en la colección.

  • Ejemplo: puede tener una lista como ['a', 'b', 'a'], porque la lista conserva el orden y puede tener elementos repetidos.

Conjunto: una colección desordenada de elementos únicos.

  • La longitud del conjunto viene determinada por el número de elementos únicos que hay en la colección.

  • Ejemplo: no puede tener un conjunto como ['a', 'b', 'a'] porque contiene un elemento repetido. En cambio, el conjunto tendrá los elementos ['a', 'b'], porque el conjunto solo contiene elementos únicos.

Vector: una lista especializada que representa una matriz de elementos de tamaño fijo. El orden de los elementos tiene importancia, de modo que las posiciones de los elementos representan determinadas propiedades de los datos.

  • Los elementos del tipo de colección vectorial deben tener el tipo de característica Fractional.

  • Solo puede tener un tipo de colección vectorial por grupo de características de nivel InMemory de almacenamiento en línea.

  • Predeterminará la dimensión (número de elementos en el vector) del vector que se especifica mediante VectorDimension. El límite máximo de dimensiones es 8192.

  • Ejemplo: puede tener un vector como [4,2, -6,3, 4,2], en el que el primer, el segundo y el tercer elemento puedan representar las posiciones x, y, z en el espacio físico.

No hay límites en la longitud de las colecciones, siempre que no superen el tamaño máximo de un registro. Para obtener el tamaño máximo de un registro, consulte Cuotas, reglas de nomenclatura y tipos de datos.