Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparar los metadatos de los elementos para la formación
Los metadatos de los elementos incluyen datos numéricos y categóricos sobre los elementos con los que interactúan los usuarios. Entre los ejemplos de metadatos de los artículos se incluyen la fecha de creación, el precio, el género, la descripción y la disponibilidad. Importa metadatos sobre sus elementos en un conjunto de datos de elementos de Amazon Personalize.
Según el caso de uso del dominio o la receta personalizada, los metadatos de los artículos pueden ayudar a Amazon Personalize a recomendar artículos más relevantes a los usuarios, a predecir artículos similares con mayor precisión o a recomendar segmentos de usuarios más significativos. Y puede ayudar a Amazon Personalize a incluir nuevos artículos en las recomendaciones. Los metadatos de los artículos son obligatorios para algunos casos de uso de dominios y son opcionales para todas las recetas personalizadas. Para obtener más información, consulta los requisitos de datos para el caso de uso o la receta de tu dominio enHacer coincidir su caso de uso con los recursos de Amazon Personalize.
Durante el entrenamiento, Amazon Personalize no utiliza cadenas de datos de elementos que no sean categóricos, como títulos de artículos o datos de autor. Sin embargo, la importación de estos datos puede mejorar las recomendaciones. Para obtener más información, consulte Datos de cadena no categóricos.
El número máximo de artículos que Amazon Personalize considera durante el entrenamiento depende del caso de uso o de la receta. Solo los elementos considerados durante el entrenamiento pueden aparecer en las recomendaciones.
-
En el caso de la versión 2 de personalización de usuario o la versión 2 de clasificación personalizada, el número máximo de elementos que un modelo tiene en cuenta durante el entrenamiento es de 5 millones. Estos elementos provienen del conjunto de datos de elementos y de interacciones entre elementos.
-
Para todos los casos de uso y recetas personalizadas de dominios distintos de la versión 2 de personalización de usuario y la versión 2 de clasificación personalizada, el número máximo de elementos que un modelo tiene en cuenta durante el entrenamiento y la generación de recomendaciones es de 750 000.
Para todos los casos de uso de dominios y recetas personalizadas, los datos de los artículos masivos deben estar en un archivo. CSV Cada fila del archivo debe representar un elemento único. Cuando termine de preparar los datos, estará listo para crear un JSON archivo de esquema. Este archivo informa a Amazon Personalize sobre la estructura de sus datos. Para obtener más información, consulte Creación de JSON archivos de esquema para los esquemas de Amazon Personalize.
En las siguientes secciones se proporciona más información sobre cómo preparar los metadatos de tus artículos para Amazon Personalize. Para ver las pautas de formato de datos masivos para todos los tipos de datos, consulte las pautas de formato de datos masivos
Temas
Requisitos de datos del artículo
Los siguientes son los requisitos de metadatos de los artículos para Amazon Personalize.
Si no está seguro de tener suficientes datos o si tiene dudas sobre su calidad, puede importar los datos a un conjunto de datos de Amazon Personalize y utilizar Amazon Personalize para analizarlos. Para obtener más información, consulte Análisis de la calidad y cantidad de datos en los conjuntos de datos de Amazon Personalize.
-
Para todos los casos de uso de dominios y recetas personalizadas, debe tener una columna ITEM _ID que almacene el identificador único de cada elemento. Cada artículo debe tener un identificador de artículo. Debe tener
string
una longitud máxima de 256 caracteres. -
En el caso de las recetas personalizadas, los datos deben tener al menos una cadena categórica o una columna de metadatos numéricos. Las columnas de metadatos de los elementos pueden incluir valores vacíos o nulos. Se recomienda completar estas columnas al menos en un 70 por ciento.
-
Para los casos de uso de dominios, las columnas obligatorias dependen del dominio. Para obtener más información, consulte VIDEORequisitos del dominio _ON_ DEMAND o ECOMMERCErequisitos de dominio.
-
El número máximo de columnas de metadatos es 100.
VIDEORequisitos del dominio _ON_ DEMAND
Para algunos casos de uso, se requieren los metadatos de un elemento (consulteCasos de uso de VIDEO_ON_DEMAND). Si es opcional, seguimos recomendando importar los metadatos de los elementos para obtener las recomendaciones más relevantes. Si importas metadatos de artículos, tus datos deben incluir las siguientes columnas:
-
ITEM_ID
-
GENRES(categórico
string
) -
CREATION_ TIMESTAMP (en formato de época y hora de Unix)
A continuación se enumeran las columnas adicionales recomendadas y sus tipos obligatorios. El null
tipo indica que es posible que falten valores en la columna. Se recomienda completar estas columnas al menos en un 70 por ciento. La inclusión de estas columnas puede mejorar las recomendaciones.
PRICE(flotante)
DURATION(flotar)
GENRE_L2 (categórico
string
,)null
GENRE_L3 (categórico,)
string
null
AVERAGE_RATING (
float
,null
)PRODUCT_ DESCRIPTION (textual,)
string
null
CONTENT_ OWNER (categórico
string
,null
): la empresa propietaria del vídeo. Por ejemplo, los valores pueden serHBO, Paramount yNBC.CONTENT_ CLASSIFICATION (categórico
string
,null
): la valoración del contenido. Por ejemplo, los valores pueden ser G, PG, PG-13, R, NC-17 y no sin clasificación.
ECOMMERCErequisitos de dominio
Los metadatos de los elementos son opcionales para todos los casos de ECOMMERCE uso. Si tienes datos de artículos, te recomendamos importarlos para obtener las recomendaciones más relevantes. Si importas metadatos de artículos, tus datos deben tener las siguientes columnas:
-
ITEM_ID
-
PRICE (
float
) -
CATEGORY_L1 (categórico
string
): para obtener información sobre el formato de datos categóricos, consulte. Metadatos categóricos
A continuación, se enumeran las columnas adicionales recomendadas y sus tipos obligatorios. El null
tipo indica que es posible que falten valores en la columna. Se recomienda completar estas columnas al menos en un 70 por ciento. La inclusión de estas columnas puede mejorar las recomendaciones.
CATEGORY_L2 (categórico
string
,)null
CATEGORY_L3 (categórico,)
string
null
PRODUCT_ DESCRIPTION (textual,)
string
null
CREATION_TIMESTAMP (
float
)AGE_ GROUP (categórico
string
,null
): el grupo de edad al que pertenece el artículo. Los valores pueden ser recién nacidos, bebés, niños y adultos.ADULT(categórico
string
,null
): si el artículo está restringido solo a adultos, por ejemplo, bebidas alcohólicas. Los valores pueden ser sí o no.GENDER(categórico
string
,null
): el género al que va dirigido el artículo. Los valores pueden ser hombre, mujer y unisex.
Datos de la marca de tiempo de creación
Los datos de la marca de tiempo de creación deben estar en formato Unix de época y estar expresados en segundos. Por ejemplo, la marca temporal de Epoch en segundos para la fecha del 31 de julio de 2020 es 1596238243. Para convertir fechas en marcas de tiempo de época de Unix, utilice un convertidor Epoch: convertidor de marcas de tiempo de Unix.
Amazon Personalize utiliza los datos de marca temporal de creación (en formato de tiempo Unix, en segundos) para calcular la antigüedad de un elemento y ajustar las recomendaciones en consecuencia.
Si faltan los datos de marca de tiempo de creación para uno o más elementos, Amazon Personalize deduce esta información a partir de los datos de interacción, si los hay, y utiliza la marca de tiempo de los datos de interacción más antiguos del elemento como la marca de tiempo de creación del elemento. Si un elemento no tiene datos de interacción, su marca de tiempo de creación se establece como la marca de tiempo de la última interacción del conjunto de entrenamiento y Amazon Personalize lo considera un elemento nuevo.
Metadatos categóricos
Con determinadas recetas y todos los casos de uso de dominios, Amazon Personalize utiliza metadatos categóricos, como el género o el color de un elemento, para identificar los patrones subyacentes que revelan los artículos más relevantes para sus usuarios. Puede definir su propio rango de valores en función de su caso de uso. Los metadatos categóricos pueden estar en cualquier idioma.
Para los elementos con varias categorías, separe cada valor con la barra vertical, “|”. Por ejemplo, en el caso de un GENRES campo, los datos de un elemento podrían serAction|Crime|Biopic
. Si tiene varios niveles de datos categóricos y algunos elementos tienen varias categorías para cada nivel de la jerarquía, utilice una columna independiente para cada nivel y añada un indicador de nivel después del nombre de cada campo:GENRES, GENRE _L2, _L3. GENRE Esto le permite filtrar las recomendaciones en función de las subcategorías, incluso si un elemento pertenece a varias categorías de varios niveles (para obtener información sobre la creación y el uso de filtros, consulte). Recomendaciones de filtrado y segmentos de usuarios Por ejemplo, un vídeo puede tener los siguientes datos para cada nivel de categoría:
-
GENRES: Acción|Aventura
-
GENRE_L2: Crimen|Western
-
GENRE_L3: Película biográfica
En este ejemplo, el vídeo está en la jerarquía acción > crimen > biopic y la jerarquía aventura > western > biopic. Recomendamos usar solo hasta L3, pero puede usar más niveles si es necesario.
Los valores categóricos pueden tener una longitud máxima de 1000 caracteres. Si tiene un elemento con un valor categórico con más de 1000 caracteres, se generará un error en su trabajo de importación del conjunto de datos. Recomendamos que las columnas categóricas tengan un máximo de 1000 valores posibles. La importación de datos categóricos con más valores puede afectar negativamente a las recomendaciones. Lo siguiente puede ayudarle a reducir el número de valores posibles de una columna categórica:
-
Asegúrese de que los valores sigan una convención de nomenclatura coherente y compruebe si hay errores tipográficos. Por ejemplo, usa «zapatos de hombre» en lugar de tener una combinación de «zapatos de hombre», «zapatos de hombre» y «calzado de hombre».
-
Consolide categorías similares que usen términos ligeramente diferentes que se refieran a la misma categoría subyacente, como «Zapatos» y «Zapatillas».
-
Si los datos tienen una estructura jerárquica, en la que las categorías más amplias (como «Calzado») contienen subcategorías más específicas (como «Calzado de hombre», «Calzado de mujer» o «Calzado de niño»), utilice una columna independiente para cada nivel y añada un indicador de nivel después del nombre de cada campo. Por ejemplo, CATEGORY _1, CATEGORY _2 y _3. CATEGORY Esto puede reducir las categorías ambiguas o superpuestas.
Con todas las recetas y dominios, puede importar datos categóricos y usarlos para filtrar las recomendaciones en función de los atributos de un elemento. Para obtener más información acerca del filtrado de recomendaciones, consulte Recomendaciones de filtrado y segmentos de usuarios.
Metadatos de texto no estructurado
Con determinadas recetas y dominios, Amazon Personalize puede extraer información significativa de metadatos de texto no estructurado, como descripciones de productos, reseñas de productos o sinopsis de películas. Amazon Personalize utiliza texto no estructurado para identificar los elementos relevantes para los usuarios, en particular cuando los elementos son nuevos o tienen menos datos de interacciones. Puede añadir 1 campo textual como máximo. Incluya datos de texto no estructurado en su conjunto de datos de elementos para aumentar las tasas de clics y las tasas de conversación para los nuevos elementos de su catálogo.
Cuando prepare los metadatos de texto no estructurado, escriba el texto entre comillas dobles y elimine los caracteres de línea nuevos. Utilice el carácter \
para aplicar escape en cualquier comilla doble o carácter \ en los datos. Amazon Personalize trunca los campos de texto al límite de caracteres. Asegúrese de que la información más relevante del texto se encuentre al principio del campo.
Los valores de texto no estructurado pueden tener como máximo 20 000 caracteres en todos los idiomas, excepto en chino y japonés. Para el chino y el japonés, puede tener como máximo 7000 caracteres. Amazon Personalize trunca los valores que superan el límite de caracteres al límite de caracteres.
Puede enviar elementos de texto no estructurado en varios idiomas, pero el texto de cada elemento debe estar en un solo idioma. El texto puede estar en los siguientes idiomas:
-
Chino simplificado
-
Chino tradicional
-
Inglés
-
Francés
-
Alemán
-
Japonés
-
Portugués
-
Español
Datos numéricos
Amazon Personalize puede utilizar metadatos numéricos de los artículos, como el precio o la duración del vídeo, para generar recomendaciones más relevantes para los usuarios. Estos datos numéricos se pueden representar como números enteros o valores decimales.
Si utilizas recetas User-Personalization o recetas Personalized-Ranking personalizadas, puedes optimizar una solución Amazon Personalize para un objetivo relacionado con los metadatos de un artículo, además de garantizar la máxima relevancia, como maximizar los ingresos. Al configurar la solución, elige la columna de metadatos numéricos del conjunto de datos de artículos que está relacionada con su objetivo. Por ejemplo, puedes elegir una LENGTH columna VIDEO _ para maximizar los minutos de streaming o una PRICE columna para maximizar los ingresos.
Para obtener más información, consulte Optimización de una solución para un objetivo adicional.
Datos de cadena no categóricos
A excepción del artículoIDs, Amazon Personalize no utiliza datos de cadenas no textuales que no sean categóricos durante el entrenamiento, como los títulos de los artículos o los datos del autor. Sin embargo, Amazon Personalize puede utilizarla con las siguientes funciones. Los valores no categóricos pueden tener un máximo de 1000 caracteres.
-
Amazon Personalize puede incluir metadatos de los elementos en las recomendaciones, incluidos valores de cadena no categóricos. Puede usar los metadatos para enriquecer las recomendaciones de la interfaz de usuario, por ejemplo, agregar el nombre del director al carrusel de recomendaciones de una película. Para obtener más información, consulte Metadatos de los artículos en las recomendaciones.
-
Si usa Similar-Items, puede generar recomendaciones por lotes con temas. Al generar recomendaciones por lotes con temas, debe especificar una columna de nombre del elemento en el trabajo de inferencia por lotes. Para obtener más información, consulte Recomendaciones por lotes con temas del Generador de contenidos.
-
Puede crear filtros para incluir o quitar elementos de las recomendaciones en función de los datos de cadena no categóricos. Para obtener más información acerca de los filtros, consulte Recomendaciones de filtrado y segmentos de usuarios.
Ejemplo de metadatos de elementos
Las primeras líneas de metadatos de películas de un CSV archivo pueden tener el siguiente aspecto.
ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...
La ITEM_ID
columna es obligatoria y almacena identificadores únicos para cada elemento individual. La GENRE
columna almacena metadatos categóricos para cada película y la DESCRIPTION
columna son metadatos textuales no estructurados. La CREATION_TIMESTAMP
columna almacena el tiempo de creación de cada elemento en el formato de época de Unix en segundos.
Cuando termine de preparar los datos, estará listo para crear un archivo de esquemaJSON. Este archivo informa a Amazon Personalize sobre la estructura de sus datos. Para obtener más información, consulte Creación de JSON archivos de esquema para los esquemas de Amazon Personalize. Este es el aspecto que tendría el JSON archivo de esquema para los datos de ejemplo anteriores.
{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }