Utilice Feature Store con SDK Python (Boto3) - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Utilice Feature Store con SDK Python (Boto3)

El grupo de funciones es el recurso principal de la tienda de características que contiene los datos y metadatos de aprendizaje automático (ML) almacenados en Amazon SageMaker Feature Store. Un grupo de características es una agrupación lógica de características y registros. La definición de un grupo de características consta de una configuración para el almacenamiento sin conexión y en línea y de una lista de definiciones de características que se utilizan para describir los valores de los registros. Las definiciones de características deben incluir un nombre de identificador de registro y un nombre de hora del evento. Para obtener más información sobre los conceptos del almacén de características, consulte Conceptos del almacén de características.

Antes de utilizar un almacén de características, normalmente cargará el conjunto de datos, ejecutará transformaciones y configurará las características para la ingestión. Este proceso tiene muchas variaciones y depende en gran medida de sus datos. El código de ejemplo de los siguientes temas hace referencia a los cuadernos de ejemplo Introduction to Feature Store y Fraud Detection with Amazon SageMaker Feature Store, respectivamente. Ambos utilizan AWS SDK for Python (Boto3). Para ver más ejemplos y recursos de Feature Store, consulteRecursos de Amazon SageMaker Feature Store.

Feature Store admite los siguientes tipos de funciones:String, Fractional (valor de coma flotante de IEEE 64 bits) e Integral (Int64: valor integral con signo de 64 bits). El valor predeterminado se establece en String. Esto significa que si una columna del conjunto de datos no es un tipo de característica float o long, se establece de forma predeterminada en String en el almacén de características.

Puede utilizar un esquema para describir las columnas y los tipos de datos de sus datos. Pasa este esquema a FeatureDefinitions, un parámetro obligatorio para un FeatureGroup. Puede usar la función SDK para Python (Boto3), que tiene una detección automática de tipos de datos cuando usa la load_feature_definitions función.

El comportamiento predeterminado cuando se agrega un nuevo registro de característica con un ID de registro ya existente es el siguiente. En el almacenamiento sin conexión, se anexará el nuevo registro. En el almacenamiento en línea, si la hora del evento del nuevo registro es inferior a la hora del evento existente no ocurrirá nada. Sin embargo, si la hora del evento del nuevo registro es mayor o igual a la hora del evento existente, se sobrescribirá el registro.

Al crear un grupo de características nuevo, puede elegir uno de los siguientes formatos de tabla:

  • AWS Glue (Predeterminado)

  • Apache Iceberg

La ingestión de datos, especialmente durante la transmisión, puede provocar que se deposite una gran cantidad de archivos pequeños en el almacenamiento sin conexión. Esto puede afectar negativamente al rendimiento de las consultas debido al mayor número de operaciones de archivo necesarias. Para evitar posibles problemas de rendimiento, utilice el formato de tabla de Apache Iceberg al crear nuevos grupos de características. Con Iceberg, puede compactar los archivos de datos pequeños en un menor número de archivos grandes en la partición, lo que se traduce en consultas considerablemente más rápidas. Esta operación de compactación es simultánea y no afecta a las operaciones de lectura y escritura en curso en el grupo de características. Si elige la opción Iceberg al crear nuevos grupos de características, Amazon SageMaker Feature Store creará las tablas Iceberg con el formato de archivo Parquet y registrará las tablas con el. AWS Glue Data Catalog

importante

Tenga en cuenta que, en el caso de los grupo de características en formato de tabla de Iceberg, debe especificar String como valor para la hora del evento. Si especifica cualquier otro tipo, no podrá crear el grupo de características correctamente.

A continuación, se enumeran algunos de los recursos disponibles administrados por el almacén de características.