Preparación de los datos de entrenamiento para Amazon Personalize - Amazon Personalize

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de los datos de entrenamiento para Amazon Personalize

Después de elegir un caso de uso de dominio o una receta y anotar los requisitos de datos, podrá empezar a preparar los datos. Amazon Personalize puede utilizar los siguientes tipos de datos:

  • Interacciones de elemento: en Amazon Personalize, una interacción de elemento es un evento de interacción positiva entre un usuario y un elemento del catálogo. Por ejemplo, un usuario ve una película, ve un anuncio o compra un par de zapatos.

  • Artículos: los metadatos de los artículos pueden incluir información como el precio, el SKU tipo, la descripción o la disponibilidad de cada artículo del catálogo.

  • Usuarios: los metadatos de usuario pueden incluir información como la edad, el sexo, el grado de fidelización y los intereses de cada uno de los usuarios.

  • Acciones: una acción es una actividad de interacción que puede que quiera recomendar a los clientes. Entre las acciones puede incluirse instalar su aplicación móvil, completar un perfil de pertenencia a grupo, unirse a un programa de fidelización o registrarse para recibir correos electrónicos promocionales. Para la Next-Best-Action receta, se requiere el conjunto de datos Actions. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de acciones.

  • Interacciones de acciones: una interacción de acciones es una evento de interacción entre un usuario y una acción. La Next-Best-Action receta usa estos datos y los datos de tu conjunto de datos de acciones para recomendar acciones a tus usuarios. Ninguna otra receta personalizada ni caso de uso de dominio utiliza datos de Action-interactions.

Amazon Personalize almacena los datos en conjuntos de datos, uno para cada tipo de datos. Cada conjunto de datos tiene requisitos diferentes. Al importar datos en un conjunto de datos de Amazon Personalize, puede optar por importar los registros de forma masiva, individualmente o de ambos modos. Las importaciones masivas implican la importación de una gran cantidad de registros históricos almacenados en uno o más CSV archivos de un bucket de Amazon S3.

En las siguientes secciones, se proporcionan los requisitos de datos para cada tipo de conjunto de datos de Amazon Personalize y las directrices para preparar datos masivos. Si no tiene datos masivos, consulte las secciones para comprender los datos obligatorios y opcionales que puede importar con operaciones de importación individuales. Si necesita ayuda adicional para formatear sus datos, puede usar Amazon SageMaker AI Data Wrangler (Data Wrangler) para preparar sus datos. Para obtener más información, consulte Preparación e importación de datos masivos con Amazon SageMaker AI Data Wrangler.

Cuando termine de preparar los datos, estará listo para crear un archivo de esquema. JSON Este archivo informa a Amazon Personalize de la estructura de los datos. Para obtener más información, consulte Creación de archivos JSON de esquema para los esquemas de Amazon Personalize.

Directrices de formato de datos masivos para todos los tipos de datos

Las siguientes directrices y requisitos pueden ayudarle a asegurarse de que los datos masivos tengan el formato correcto.

  • Los datos de entrada deben estar en un archivo CSV (valores separados por comas).

  • La primera fila del CSV archivo debe contener los encabezados de las columnas. No incluya los encabezados entre comillas (").

  • Las columnas deben tener nombres alfanuméricos únicos. Por ejemplo, no puede agregar un campo GENRES_FIELD_1 y un campo GENRESFIELD1 a la vez.

  • Si va a importar varios CSV archivos, todos los encabezados de las columnas deben coincidir en todos los archivos.

  • Asegúrese de tener los campos obligatorios para el tipo de conjunto de datos y asegúrese de que sus nombres cumplan con los requisitos de Amazon Personalize. Por ejemplo, los datos de tus artículos pueden tener una columna llamada ITEM_IDENTIFICATION_NUMBER con IDs para cada uno de tus elementos. Para usar esta columna como un campo ITEM _ID, cámbiele el nombre a. ITEM_ID Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Asignar columnas para Amazon Personalize para asegurarse de que sus columnas tengan el nombre correcto.

    Para obtener información acerca del uso de Data Wrangler para preparar sus datos, consulte Preparación e importación de datos masivos con Amazon SageMaker AI Data Wrangler.

  • Cada registro del CSV archivo debe estar en una sola línea.

  • Amazon Personalize no admite tipos de datos complejos, como matrices y mapas.

  • Para que Amazon Personalize utilice datos booleanos al entrenar o filtrar, utilice valores de cadena "True" y "False", o valores numéricos 1 para true y 0 para false.

  • Si usa Data Wrangler para aplicar formato a sus datos, puede usar la transformación de Data Wrangler Analizar valor como tipo para convertir los tipos de datos.

  • TIMESTAMPy CREATION_TIMESTAMP los datos deben estar en formato de UNIXépoca. Para obtener más información, consulte Datos de marca temporal.

  • Evite incluir caracteres " o caracteres especiales en los datos del ID de elemento, el ID de usuario y el ID de acción.

  • Si los datos incluyen caracteres no ASCII codificados, el CSV archivo debe estar codificado en formato UTF -8.

  • Asegúrese de aplicar formato a los datos textuales tal y como se describe en Metadatos de texto no estructurado.