Cree, almacene y comparta funciones con Feature Store - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree, almacene y comparta funciones con Feature Store

El proceso de desarrollo del aprendizaje automático (ML) incluye la extracción de datos sin procesar y transformarlos en características (entradas significativas para su modelo de aprendizaje automático). Luego, esas características se almacenan de forma útil para la exploración de datos, el entrenamiento en aprendizaje automático y la inferencia de aprendizaje automático. Amazon SageMaker Feature Store simplifica la forma de crear, almacenar, compartir y gestionar funciones. Esto se consigue proporcionando opciones de feature store y reduciendo el trabajo repetitivo de procesamiento y conservación de datos.

Entre otras cosas, con Feature Store puedes:

  • Simplifique el procesamiento, el almacenamiento, la recuperación y el uso compartido de funciones para el desarrollo del aprendizaje automático en todas las cuentas o en una organización.

  • Realice un seguimiento del desarrollo del código de procesamiento de funciones, aplique su procesador de funciones a los datos sin procesar e incorpore las funciones a Feature Store de forma coherente. Esto reduce la asimetría entre la formación y la prestación, un problema común en el aprendizaje automático, ya que la diferencia entre el rendimiento durante el entrenamiento y la prestación puede afectar a la precisión del modelo de aprendizaje automático.

  • Guarde sus funciones y los metadatos asociados en grupos de características, de modo que las funciones se puedan descubrir y reutilizar fácilmente. Los grupos de entidades son mutables y su esquema puede evolucionar tras su creación.

  • Cree grupos de características que se puedan configurar para incluir una tienda en línea o fuera de línea, o ambas, para administrar sus funciones y automatizar la forma en que se almacenan las funciones para sus tareas de aprendizaje automático.

    • La tienda online solo conserva los registros más recientes de tus funciones. Está diseñado principalmente para respaldar las predicciones en tiempo real que requieren lecturas de baja latencia de milisegundos y escrituras de alto rendimiento.

    • La tienda offline guarda todos los registros de tus funciones como una base de datos histórica. Esto está destinado principalmente a la exploración de datos, el entrenamiento de modelos y las predicciones por lotes.

El siguiente diagrama muestra cómo puede utilizar Feature Store como parte de su proceso de aprendizaje automático. Una vez leídos los datos sin procesar, puede usar Feature Store para transformar los datos sin procesar en entidades e incorporarlos a su grupo de características. Las funciones se pueden transferir por streaming o por lotes a las tiendas online y offline del grupo de funciones. Luego, las funciones se pueden utilizar para la exploración de datos, el entrenamiento de modelos y la inferencia por lotes o en tiempo real.

Qué lugar ocupa Feature Store en su proceso de aprendizaje automático.

Funcionamiento del almacén de características

En el almacén de características, las características se almacenan en una colección denominada grupo de características. Puede visualizar un grupo de características como una tabla en la que cada columna es una característica, con un identificador único para cada fila. En principio, un grupo de características se compone de características y valores específicos de cada característica. Un Record es un conjunto de valores para características que corresponden a un único RecordIdentifier. En conjunto, un FeatureGroup es un grupo de características definidas en su FeatureStore para describir un Record

Puede usar el almacén de características en los siguientes modos: 

  • En línea: en el modo en línea, las características se leen con lecturas de baja latencia (milisegundos) y se utilizan para realizar predicciones de alto rendimiento. Este modo requiere que un grupo de características esté almacenado en un almacenamiento en línea. 

  • Sin conexión: en el modo sin conexión, se envían grandes flujos de datos a un almacenamiento sin conexión, que se puede utilizar para el entrenamiento y la inferencia por lotes. Este modo requiere que un grupo de características esté almacenado en un almacenamiento sin conexión. El almacenamiento sin conexión usa su bucket de S3 como almacenamiento y también puede obtener datos mediante consultas de Athena. 

  • En línea y sin conexión: esto incluye los modos en línea y sin conexión.

Puede ingerir datos en el grupo de características en el almacén de características de dos maneras: por transmisión o por lotes. Cuando ingieres datos mediante streaming, se envía una colección de registros a Feature Store mediante una llamada sincrónica. PutRecord API Esto API le permite mantener los valores de funciones más recientes en Feature Store e introducir nuevos valores de funciones tan pronto como se detecte una actualización.

Como alternativa, el almacén de características puede procesar e ingerir datos por lotes. Por ejemplo, puede crear funciones con Amazon SageMaker Data Wrangler y exportar un bloc de notas desde Data Wrangler. El cuaderno puede ser un trabajo de SageMaker procesamiento que incorpora las funciones en lotes a un grupo de características de Feature Store. Este modo permite la ingestión por lotes en el almacenamiento sin conexión. También admite la ingestión al almacenamiento en línea si el grupo de características está configurado para su uso tanto en línea como sin conexión. 

Creación de un grupo de características

Para ingerir características al almacén de características, primero debe definir el grupo de características y las definiciones de las características (nombre de la característica y tipo de datos) de todas las características que pertenecen al grupo de características. Una vez creados, los grupos de características son mutables y su esquema puede evolucionar. Los nombres de los grupos de características son únicos dentro de un y Región de AWS . Cuenta de AWS Al crear un grupo de entidades, también puede crear los metadatos del grupo de entidades. Los metadatos pueden contener una descripción breve, una configuración de almacenamiento, funciones para identificar cada registro y la hora del evento. Además, los metadatos pueden incluir etiquetas para almacenar información como el autor, la fuente de datos, la versión, etc.

importante

FeatureGrouplos nombres o los metadatos asociados, como la descripción o las etiquetas, no deben contener ninguna información de identificación personal (PII) ni información confidencial.

Buscar, detectar y compartir características

Después de crear un grupo de características en el almacén de características, otros usuarios autorizados del almacén de características pueden compartirlo y detectarlo. Los usuarios pueden explorar una lista de todos los grupos de características en el almacén de características o detectar los grupos de características existentes mediante una búsqueda por nombre del grupo de características, descripción, nombre del identificador de registro, fecha de creación y etiquetas. 

Inferencia en tiempo real de las características almacenadas en el almacenamiento en línea 

Con el almacén de características, puede enriquecer las características almacenadas en el almacenamiento en línea en tiempo real con datos de un origen de transmisión (datos de transmisión limpios de otra aplicación) y ofrecer las características con una latencia de pocos milisegundos para realizar inferencias en tiempo real. 

También puede realizar uniones entre diferentes FeatureGroups para obtener inferencias en tiempo real si consulta dos tipos diferentes de FeatureGroups en la aplicación cliente. 

Almacenamiento sin conexión para el entrenamiento de modelos e inferencia por lotes

El almacén de características proporciona almacenamiento sin conexión para los valores de las características de su bucket de S3. Los datos se almacenan en el bucket de S3 mediante un esquema de prefijo basado en la hora del evento. El almacenamiento sin conexión es un almacén solo de anexos, lo que permite al almacén de características mantener un registro histórico de todos los valores de las características. Los datos se almacenan en el almacenamiento sin conexión en formato Parquet para optimizar el almacenamiento y el acceso a las consultas.

Puede consultar, explorar y visualizar las funciones con Data Wrangler desde la consola.  El almacén de características admite la combinación de datos para producir, entrenar, validar y probar conjuntos de datos, y le permite extraer datos en diferentes momentos.

Ingesta de datos de características

Las canalizaciones de generación de características se pueden crear para procesar lotes grandes (1 millón de filas de datos o más) o lotes pequeños, y para escribir los datos de las características en el almacenamiento en línea o sin conexión. Los orígenes de transmisión, como Amazon Managed Streaming para Apache Kafka o Amazon Kinesis, también se pueden utilizar como orígenes de datos de los que se extraen características que se envían directamente al almacenamiento en línea con fines de entrenamiento, inferencia o creación de características. 

Puede enviar los registros a Feature Store realizando una llamada sincrónica PutRecordAPI. Como se trata de una API llamada sincrónica, permite enviar pequeños lotes de actualizaciones en una sola llamada. API Esto le permite mantener una alta actualización de los valores de las características y publicar valores en cuanto se detecte una actualización. También se denominan características de transmisión

Cuando se ingieren y actualizan los datos de las características, el almacén de características almacena los datos históricos de todas las características del almacenamiento sin conexión. Para la ingesta por lotes, puede extraer los valores de las características de su bucket de S3 o utilizar Athena para realizar consultas. También puede usar Data Wrangler para procesar y diseñar nuevas características que luego se pueden exportar a un bucket de S3 elegido para que el almacén de características pueda acceder a ellas. Para la ingesta por lotes, puede configurar un trabajo de procesamiento para ingerir datos por lotes al almacén de características, o puede extraer los valores de las características de su bucket de S3 con Athena. 

Para eliminar una Record de tu tienda online, utiliza la DeleteRecordAPIllamada. Esto también agrega el registro eliminado al almacenamiento sin conexión.

Resiliencia del almacén de características

Feature Store se distribuye en varias zonas de disponibilidad (AZs). Una AZ es una ubicación aislada dentro de una Región de AWS. Si algunas AZs fallan, Feature Store puede usar otrasAZs. Para obtener más información al respectoAZs, consulteResiliencia en Amazon SageMaker.