As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparar metadados do item para treinamento
Os metadados do item incluem dados numéricos e categóricos sobre os itens com os quais seus usuários interagem. Exemplos de metadados de itens incluem data e hora de criação, preço, gênero, descrição e disponibilidade. Você importa metadados sobre seus itens para um conjunto de dados de itens do Amazon Personalize.
Dependendo do caso de uso do seu domínio ou da fórmula personalizada, os metadados do usuário podem ajudar o Amazon Personalize a recomendar itens mais relevantes aos usuários, prever itens semelhantes com mais precisão ou recomendar segmentos de usuários mais proveitosos. E isso pode ajudar o Amazon Personalize a incluir novos itens nas recomendações. Os metadados do item são obrigatórios para alguns casos de uso do domínio e opcionais para todas as fórmulas personalizadas. Para obter mais informações, consulte os requisitos de dados para o caso de uso ou fórmula do seu domínio em Combinar seus casos de uso com os recursos do Amazon Personalize.
Durante o treinamento, o Amazon Personalize não usa dados de itens de string não categóricos, como títulos de itens ou dados do autor. No entanto, importar esses dados ainda pode melhorar as recomendações. Para obter mais informações, consulte Dados de string não categóricos.
O número máximo de itens que o Amazon Personalize considera durante o treinamento depende do seu caso de uso ou fórmula. Somente itens que foram considerados durante o treinamento podem aparecer nas recomendações.
-
Para User-Personalization-v 2 ou Personalized-Ranking-v 2, o número máximo de itens considerados por um modelo durante o treinamento é de 5 milhões. Esses itens são do conjunto de dados de interações com itens e itens.
-
Para todos os casos de uso de domínio e receitas personalizadas, exceto User-Personalization-v Personalized-Ranking-v 2 e 2, o número máximo de itens considerados por um modelo durante o treinamento e a geração de recomendações é 750.000.
Para todos os casos de uso de domínio e fórmulas personalizadas, os dados do item em lote devem estar em um arquivo CSV. Cada linha do arquivo deve representar um único usuário. Quando terminar de preparar os dados, você poderá criar um arquivo JSON do esquema. Esse arquivo informa a estrutura dos seus dados ao Amazon Personalize. Para obter mais informações, consulte Criar arquivos JSON de esquema para esquemas do Amazon Personalize.
As seções a seguir fornecem mais informações sobre como preparar seus metadados de itens para o Amazon Personalize. Para conhecer as diretrizes de formato de dados em massa para todos os tipos de dados, consulte as diretrizes de formato de dados em massa.
Tópicos
requisitos de dados de itens
A seguir, veja os requisitos de dados do usuário para o Amazon Personalize.
Se não souber se há dados suficientes ou tiver dúvidas sobre a qualidade deles, importe seus dados para um conjunto de dados do Amazon Personalize para analisá-los. Para obter mais informações, consulte Analisar a qualidade e a quantidade de dados nos conjuntos de dados do Amazon Personalize.
-
Para todos os casos de uso de domínio e fórmulas personalizadas, você deve ter uma coluna ITEM_ID que armazene o identificador exclusivo de cada item. Todo evento deve ter um ID de item. Esse nome deve ter uma
string
com até 256 caracteres. -
Para fórmulas personalizadas, seus dados devem ter, pelo menos, uma string categórica ou coluna de metadados numéricos. As colunas de metadados do item podem incluir valores vazios/nulos. Recomendamos que essas colunas estejam no mínimo 70% completas.
-
Para casos de uso de domínio, as colunas necessárias dependem do seu domínio. Para ter mais informações, consulte Requisitos de domínio VIDEO_ON_DEMAND ou Requisitos de domínio de ecommerce.
-
O número máximo de colunas de metadados é 100.
Requisitos de domínio VIDEO_ON_DEMAND
Um conjunto de dados de itens é necessário para alguns casos de uso (consulte Casos de uso VIDEO_ON_DEMAND). Mesmo opcional, é recomendado criar um conjunto de dados de itens para obter as recomendações mais relevantes. Se você importar metadados do item, seus dados devem incluir as seguintes colunas:
-
ITEM_ID
-
GENRES (
string
categóricos) -
CREATION_TIMESTAMP (no formato de hora Unix epoch)
Veja a seguir uma lista de colunas adicionais recomendadas e seus tipos obrigatórios. O tipo null
indica que a coluna pode ter valores ausentes. Recomendamos que essas colunas estejam no mínimo 70% completas. Incluir essas colunas pode melhorar as recomendações.
PRICE (float)
DURATION (float)
GENRE_L2 (
string
categórico,null
)GENRE_L3 (
string
categórico,null
)AVERAGE_RATING (
float
,null
)PRODUCT_DESCRIPTION (
string
textual,null
)CONTENT_OWNER (
string
categórica,null
): a empresa proprietária do vídeo. Por exemplo, os valores podem ser HBO, Paramount e NBC.CONTENT_CLASSIFICATION (
string
categórica,null
): a classificação do conteúdo. Por exemplo, os valores podem ser G, PG, PG-13, R, NC-17 e sem classificação.
Requisitos de domínio de ecommerce
Um conjunto de dados de itens é opcional para todos os casos de uso de ecommerce. Se você tiver dados de itens, recomendamos criar um conjunto de dados de itens para obter as recomendações mais relevantes. Se você importar metadados do item, seus dados devem incluir as seguintes colunas:
-
ITEM_ID
-
PRICE (
float
) -
CATEGORY_L1 (
string
categórica): para obter informações sobre a formatação de dados categóricos, consulte Metadados categóricos.
Veja a seguir uma lista de colunas adicionais recomendadas e seus tipos obrigatórios. O tipo null
indica que a coluna pode ter valores ausentes. Recomendamos que essas colunas estejam no mínimo 70% completas. Incluir essas colunas pode melhorar as recomendações.
CATEGORY_L2 (
string
categórico,null
)CATEGORY_L3 (
string
categórico,null
)PRODUCT_DESCRIPTION (
string
textual,null
)CREATION_TIMESTAMP (
float
)AGE_GROUP (
string
categórica,null
): a faixa etária para a qual o item se destina. Os valores podem ser recém-nascidos, bebês, crianças e adultos.ADULT (
string
categórica,null
): se o item é restrito apenas a adultos, como bebidas alcoólicas. Os valores podem ser sim ou não.GENDER (
string
categórica,null
): o gênero ao qual o item se destina. Os valores podem ser masculino, feminino e unissex.
Dados de carimbo de data e hora de criação
A criação dos carimbos de data e hora devem estar no formato de hora do Unix epoch, em segundos. Por exemplo, o carimbo de data/hora Unix epoch em segundos para a data 31 de julho de 2020 é 1596238243. Para converter datas em carimbos de data/hora do Unix, use o site Epoch Converter - Unix Timestamp Converter
O Amazon Personalize usa dados de data e hora de criação (no formato de horário Unix Epoch, em segundos) para calcular a idade de um item e ajustar as recomendações de acordo.
Se faltarem dados de data e hora de criação para um ou mais itens, o Amazon Personalize infere essas informações dos dados de interação, se houver, e usa o carimbo de data e hora dos dados de interação mais antigos do item como o carimbo de data e hora de criação do item. Se um item não tiver dados de interação, seu carimbo de data e hora de criação será definido como o carimbo de data e hora da interação mais recente no conjunto de treinamento e o Amazon Personalize o considerará um novo item.
Metadados categóricos
Com algumas fórmulas e todos os casos de uso dos domínios, o Amazon Personalize usa metadados categóricos, como gênero ou cor, ao identificar padrões subjacentes que revelam os itens mais relevantes para seus usuários. Você define o próprio intervalo de valores com base em seu caso de uso. Os metadados categóricos podem estar em qualquer idioma.
Para itens com várias categorias, separe cada valor com a barra vertical '|'. Por exemplo, para um campo GENRES, seus dados de um item podem ser Action|Crime|Biopic
. Se você tiver vários níveis de dados categóricos e alguns itens tiverem várias categorias para cada nível na hierarquia, use uma coluna separada para cada nível e acrescente um indicador de nível depois de cada nome de campo: GENRES, GENRE_L2, GENRE_L3. Isso permite filtrar recomendações com base em subcategorias, mesmo que um item pertença a diversas categorias de vários níveis (para obter informações sobre como criar e usar filtros, consulte Como filtrar recomendações e segmentos de usuários). Por exemplo, um vídeo pode ter os seguintes dados para cada nível de categoria:
-
GENRES: Ação|Aventura
-
GENRE_L2: Crime|Faroeste
-
GENRE_L3: biografia
Neste exemplo, o vídeo está na hierarquia ação > crime > biografia e na hierarquia aventura > faroeste > biografia. Recomendamos usar apenas até L3, mas você pode usar mais níveis, se necessário.
Os valores categóricos podem ter no máximo 1.000 caracteres. Se você tiver um item com um valor categórico com mais de 1.000 caracteres, sua tarefa de importação do conjunto de dados falhará. Recomendamos que as colunas categóricas tenham no máximo 1.000 valores possíveis. A importação de dados categóricos com mais valores pode impactar negativamente as recomendações. O seguinte pode ajudar a reduzir o número de valores possíveis para uma coluna categórica:
-
Certifique-se de que os valores sigam uma convenção de nomenclatura consistente e verifique se há erros de digitação. Por exemplo, use “Sapatos masculinos” em vez de uma mistura de “Sapatos para homens”, “Sapatos para homem” e “Calçados masculinos”.
-
Consolide categorias semelhantes que usam termos ligeiramente diferentes que se referem à mesma categoria subjacente, como “Sapatos” e “Tênis”.
-
Se seus dados tiverem uma estrutura hierárquica, em que categorias mais amplas (como “Calçados”) contêm subcategorias mais específicas (como “Sapatos masculinos”, “Sapatos femininos” ou “Sapatos infantis”), use uma coluna separada para cada nível e acrescente um indicador de nível após o nome de cada campo. Por exemplo: CATEGORY_1, CATEGORY_2 e CATEGORY_3. Isso pode reduzir categorias ambíguas ou sobrepostas.
Com todas as fórmulas e domínios, você pode importar dados categóricos e usá-los para filtrar recomendações com base nos atributos de um item. Para obter informações sobre como filtrar recomendações, consulte Como filtrar recomendações e segmentos de usuários.
Metadados de texto não estruturados
Com algumas fórmulas e domínios, o Amazon Personalize pode extrair informações significativas de metadados de texto não estruturados, como descrições de produtos, análises de produtos ou sinopses de filmes. O Amazon Personalize usa texto não estruturado para identificar itens relevantes para seus usuários, especialmente quando os itens são novos ou têm menos dados de interações. Você pode adicionar no máximo 1 campo de texto. Inclua dados de texto não estruturados em seu conjunto de dados de itens para aumentar as taxas de cliques e as taxas de conversação de novos itens no seu catálogo.
Ao preparar seus metadados de texto não estruturado, coloque o texto entre aspas duplas e remova os novos caracteres de linha. Use o caractere \
para buscar caracteres de aspas duplas ou \ nos seus dados. O Amazon Personalize trunca os campos de texto no limite de caracteres. Certifique-se de que as informações mais relevantes no texto estejam no início do campo.
Valores de texto não estruturado podem ter no máximo 20.000 caracteres em todos os idiomas, exceto chinês e japonês. Para chinês e japonês, você pode ter no máximo 7.000 caracteres. O Amazon Personalize trunca valores que excedem o limite de caracteres no limite de caracteres.
Você pode enviar itens de texto não estruturados em vários idiomas, mas o texto de cada item deve estar em apenas um idioma. O texto pode estar nos seguintes idiomas:
-
Chinês (simplificado)
-
Chinês (tradicional)
-
Inglês
-
Francês
-
Alemão
-
Japonês
-
Português
-
Espanhol
Dados numéricos
O Amazon Personalize pode usar metadados numéricos de itens, como preço ou duração do vídeo, ao gerar recomendações mais relevantes para os usuários. Esses dados numéricos podem ser representados como números inteiros ou valores decimais.
Se você usar as fórmulas personalizadas User-Personalization ou Classificações personalizadas, poderá otimizar uma solução do Amazon Personalize para um objetivo relacionado aos metadados do item, além da máxima relevância, como maximizar a fórmula. Ao configurar sua solução, você escolhe a coluna de metadados numéricos no conjunto de dados de itens relacionada ao seu objetivo. Por exemplo, você pode escolher uma coluna VIDEO_LENGTH para maximizar os minutos de streaming ou uma coluna PRICE para maximizar a fórmula.
Para obter mais informações, consulte Otimizar uma solução para um objetivo adicional.
Dados de string não categóricos
Com exceção do item IDs, o Amazon Personalize não usa dados de sequência de caracteres não categóricos não textuais durante o treinamento, como títulos de itens ou dados do autor. No entanto, o Amazon Personalize pode usá-los com os seguintes recursos: Os valores não categóricos podem ter até 1.000 caracteres.
-
O Amazon Personalize pode incluir metadados de itens nas recomendações, como valores de string não categóricos. É possível usar metadados para aprimorar as recomendações na interface de usuário, como adicionar o nome do diretor a um carrossel de recomendações de um filme. Para obter mais informações, consulte Habilitar metadados nas recomendações.
-
Se usar Itens semelhantes, será possível gerar recomendações em lote com temas. Ao gerar recomendações em lote com temas, será necessário especificar uma coluna de nome de item no trabalho de inferência em lote. Para obter mais informações, consulte Recomendações em lote com temas do Content Generator.
-
É possível criar filtros para incluir ou remover itens das recomendações com base em dados de string não categóricos. Para obter mais informações sobre os filtros, consulte Como filtrar recomendações e segmentos de usuários.
Exemplo de metadados de itens
As primeiras linhas de metadados de filmes em um arquivo CSV podem ser semelhantes ao mostrado a seguir.
ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...
A coluna ITEM_ID
é obrigatória e armazena identificadores exclusivos para cada usuário individual. A coluna GENRE
armazena metadados categóricos para cada filme, e a coluna DESCRIPTION
são metadados textuais não estruturados. A coluna CREATION_TIMESTAMP
armazena a hora de criação de cada item no formato de hora do Unix epoch em segundos.
Quando terminar de preparar os dados, você poderá criar um arquivo JSON do esquema. Esse arquivo informa a estrutura dos seus dados ao Amazon Personalize. Para obter mais informações, consulte Criar arquivos JSON de esquema para esquemas do Amazon Personalize. Essa é a aparência do arquivo JSON do esquema para os dados de amostra acima.
{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }