Preparando metadados do item para treinamento - Amazon Personalize

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparando metadados do item para treinamento

Os metadados do item incluem dados numéricos e categóricos sobre os itens com os quais seus usuários interagem. Exemplos de metadados de itens incluem data e hora de criação, preço, gênero, descrição e disponibilidade. Você importa metadados sobre seus itens para um conjunto de dados de itens do Amazon Personalize.

Dependendo do caso de uso do seu domínio ou da receita personalizada, os metadados do item podem ajudar o Amazon Personalize a recomendar itens mais relevantes aos usuários, prever com mais precisão itens semelhantes ou recomendar segmentos de usuários mais significativos. E isso pode ajudar o Amazon Personalize a destacar novos itens nas recomendações. Os metadados do item são obrigatórios para alguns casos de uso do domínio e opcionais para todas as receitas personalizadas. Para obter mais informações, consulte os requisitos de dados para o caso de uso ou receita do seu domínio emCombinando seu caso de uso com os recursos do Amazon Personalize.

Durante o treinamento, o Amazon Personalize não usa dados de itens de sequência de caracteres não categóricos, como títulos de itens ou dados do autor. No entanto, importar esses dados ainda pode aprimorar as recomendações. Para obter mais informações, consulte Dados de string não categóricos.

O número máximo de itens que o Amazon Personalize considera durante o treinamento depende do seu caso de uso ou receita. Somente itens considerados durante o treinamento podem aparecer nas recomendações.

  • Para User-Personalization-V2 ou Personalized-Ranking-V2, o número máximo de itens considerados por um modelo durante o treinamento é de 5 milhões. Esses itens são do conjunto de dados de interações de itens e itens.

  • Para todos os casos de uso de domínio e receitas personalizadas, exceto User-Personalization-V2 e Personalized-Ranking-V2, o número máximo de itens considerados por um modelo durante o treinamento e a geração de recomendações é 750.000.

Para todos os casos de uso de domínio e receitas personalizadas, os dados do item em massa devem estar em um CSV arquivo. Cada linha no arquivo deve representar um item exclusivo. Depois de concluir a preparação dos dados, você estará pronto para criar um JSON arquivo de esquema. Esse arquivo informa ao Amazon Personalize sobre a estrutura dos seus dados. Para obter mais informações, consulte Criação de JSON arquivos de esquema para esquemas do Amazon Personalize.

As seções a seguir fornecem mais informações sobre como preparar os metadados do seu item para o Amazon Personalize. Para obter diretrizes de formato de dados em massa para todos os tipos de dados, consulte as diretrizes de formato de dados em massa

Requisitos de dados do item

A seguir estão os requisitos de metadados do item para o Amazon Personalize.

Se você não tiver certeza de que tem dados suficientes ou se tiver dúvidas sobre sua qualidade, você pode importar seus dados para um conjunto de dados do Amazon Personalize e usar o Amazon Personalize para analisá-los. Para obter mais informações, consulte Análise da qualidade e quantidade de dados nos conjuntos de dados do Amazon Personalize.

  • Para todos os casos de uso de domínio e receitas personalizadas, você deve ter uma coluna ITEM _ID que armazene o identificador exclusivo de cada item. Cada item deve ter uma ID de item. Ele deve ter string um tamanho máximo de 256 caracteres.

  • Para receitas personalizadas, seus dados devem ter pelo menos uma string categórica ou coluna de metadados numéricos. As colunas de metadados do item podem incluir valores vazios/nulos. Recomendamos que essas colunas estejam no mínimo 70% completas.

  • Para casos de uso de domínio, as colunas necessárias dependem do seu domínio. Para obter mais informações, consulte VIDEO_ON_ requisitos de domínio DEMAND ou ECOMMERCErequisitos de domínio.

  • O número máximo de colunas de metadados é 100.

VIDEO_ON_ requisitos de domínio DEMAND

Os metadados de um item são necessários para alguns casos de uso (consulteCasos de uso VIDEO_ON_DEMAND). Quando opcional, ainda recomendamos importar os metadados do item para obter as recomendações mais relevantes. Se você importar metadados do item, seus dados devem incluir as seguintes colunas:

  • ITEM_ID

  • GENRES(categóricostring)

  • CREATION_ TIMESTAMP (no formato de hora de época do Unix)

Veja a seguir uma lista de colunas adicionais recomendadas e seus tipos obrigatórios. O null tipo indica que a coluna pode ter valores ausentes. Recomendamos que essas colunas estejam no mínimo 70% completas. Incluir essas colunas pode melhorar as recomendações.

  • PRICE(flutuar)

  • DURATION(flutuar)

  • GENRE_L2 (categóricostring,) null

  • GENRE_L3 (categóricostring,) null

  • AVERAGE_RATING (float, null)

  • PRODUCT_ DESCRIPTION (textualstring,null)

  • CONTENT_ OWNER (categóricostring,null) — A empresa proprietária do vídeo. Por exemplo, os valores podem ser HBO Paramount e. NBC

  • CONTENT_ CLASSIFICATION (categóricostring,null) — A classificação do conteúdo. Por exemplo, os valores podem ser G, PG, PG-13, R, NC-17 e sem classificação.

ECOMMERCErequisitos de domínio

Os metadados do item são opcionais para todos os casos de ECOMMERCE uso. Se você tiver dados do item, recomendamos importá-los para obter as recomendações mais relevantes. Se você importar metadados do item, seus dados devem ter as seguintes colunas:

  • ITEM_ID

  • PRICE (float)

  • CATEGORY_L1 (categóricostring) — Para obter informações sobre a formatação de dados categóricos, consulte. Metadados categóricos

Veja a seguir uma lista de colunas adicionais recomendadas e seus tipos obrigatórios. O null tipo indica que a coluna pode ter valores ausentes. Recomendamos que essas colunas estejam no mínimo 70% completas. Incluir essas colunas pode melhorar as recomendações.

  • CATEGORY_L2 (categóricostring,) null

  • CATEGORY_L3 (categóricostring,) null

  • PRODUCT_ DESCRIPTION (textualstring,null)

  • CREATION_TIMESTAMP (float)

  • AGE_ GROUP (categóricostring,null) — A faixa etária para a qual o item se destina. Os valores podem ser recém-nascidos, bebês, crianças e adultos.

  • ADULT(categóricostring,null) — Se o item é restrito apenas a adultos, como bebidas alcoólicas. Os valores podem ser sim ou não.

  • GENDER(categóricostring,null) — O gênero ao qual o item se destina. Os valores podem ser masculino, feminino e unissex.

Dados de carimbo de data e hora de criação

Os dados do carimbo de data/hora da criação devem estar no formato de hora de época do Unix em segundos. Por exemplo, o carimbo de data/hora Unix epoch em segundos para a data 31 de julho de 2020 é 1596238243. Para converter datas em timestamps Unix epoch, use um conversor Epoch - conversor de timestamp Unix.

O Amazon Personalize usa dados de data e hora de criação (no formato de horário Unix Epoch, em segundos) para calcular a idade de um item e ajustar as recomendações de acordo.

Se faltarem dados de data e hora de criação para um ou mais itens, o Amazon Personalize infere essas informações dos dados de interação, se houver, e usa o carimbo de data e hora dos dados de interação mais antigos do item como o carimbo de data e hora de criação do item. Se um item não tiver dados de interação, seu carimbo de data e hora de criação será definido como o carimbo de data e hora da interação mais recente no conjunto de treinamento e o Amazon Personalize o considerará um novo item.

Metadados categóricos

Com determinadas receitas e todos os casos de uso do domínio, o Amazon Personalize usa metadados categóricos, como o gênero ou a cor de um item, ao identificar padrões subjacentes que revelam os itens mais relevantes para seus usuários. Você define o próprio intervalo de valores com base em seu caso de uso. Os metadados categóricos podem estar em qualquer idioma.

Para itens com várias categorias, separe cada valor com a barra vertical '|'. Por exemplo, para um GENRES campo, seus dados de um item podem serAction|Crime|Biopic. Se você tiver vários níveis de dados categóricos e alguns itens tiverem várias categorias para cada nível na hierarquia, use uma coluna separada para cada nível e acrescente um indicador de nível após cada nome de campo:GENRES, _L2, _L3. GENRE GENRE Isso permite filtrar recomendações com base em subcategorias, mesmo que um item pertença a várias categorias de vários níveis (para obter informações sobre como criar e usar filtros, consulteComo filtrar recomendações e segmentos de usuários). Por exemplo, um vídeo pode ter os seguintes dados para cada nível de categoria:

  • GENRES: Ação|Aventura

  • GENRE_L2: Crime | Western

  • GENRE_L3: Filme biográfico

Neste exemplo, o vídeo está na hierarquia ação > crime > biografia e na hierarquia aventura > faroeste > biografia. Recomendamos usar apenas até L3, mas você pode usar mais níveis, se necessário.

Os valores categóricos podem ter no máximo 1.000 caracteres. Se você tiver um item com um valor categórico com mais de 1.000 caracteres, sua tarefa de importação do conjunto de dados falhará. Recomendamos que as colunas categóricas tenham no máximo 1000 valores possíveis. A importação de dados categóricos com mais valores pode impactar negativamente as recomendações. O seguinte pode ajudá-lo a reduzir o número de valores possíveis para uma coluna categórica:

  • Certifique-se de que os valores sigam uma convenção de nomenclatura consistente e verifique se há erros de digitação. Por exemplo, use “Sapatos masculinos” em vez de uma mistura de “Sapatos masculinos”, “Sapatos masculinos” e “Calçados masculinos”.

  • Consolide categorias semelhantes que usam termos ligeiramente diferentes que se referem à mesma categoria subjacente, como “Sapatos” e “Tênis”.

  • Se seus dados tiverem uma estrutura hierárquica, em que categorias mais amplas (como “Calçados”) contêm subcategorias mais específicas (como “Sapatos masculinos”, “Sapatos femininos”, “Sapatos infantis”), use uma coluna separada para cada nível e acrescente um indicador de nível após o nome de cada campo. Por exemplo, CATEGORY _1, CATEGORY _2 e CATEGORY _3. Isso pode reduzir categorias ambíguas ou sobrepostas.

Com todas as fórmulas e domínios, você pode importar dados categóricos e usá-los para filtrar recomendações com base nos atributos de um item. Para obter informações sobre como filtrar recomendações, consulte Como filtrar recomendações e segmentos de usuários.

Metadados de texto não estruturados

Com algumas fórmulas e domínios, o Amazon Personalize pode extrair informações significativas de metadados de texto não estruturados, como descrições de produtos, análises de produtos ou sinopses de filmes. O Amazon Personalize usa texto não estruturado para identificar itens relevantes para seus usuários, especialmente quando os itens são novos ou têm menos dados de interações. Você pode adicionar no máximo 1 campo de texto. Inclua dados de texto não estruturados em seu conjunto de dados de itens para aumentar as taxas de cliques e as taxas de conversação de novos itens no seu catálogo.

Ao preparar seus metadados de texto não estruturado, coloque o texto entre aspas duplas e remova os novos caracteres de linha. Use o caractere \ para buscar caracteres de aspas duplas ou \ nos seus dados. O Amazon Personalize trunca os campos de texto no limite de caracteres. Certifique-se de que as informações mais relevantes no texto estejam no início do campo.

Valores de texto não estruturado podem ter no máximo 20.000 caracteres em todos os idiomas, exceto chinês e japonês. Para chinês e japonês, você pode ter no máximo 7.000 caracteres. O Amazon Personalize trunca valores que excedem o limite de caracteres no limite de caracteres.

Você pode enviar itens de texto não estruturados em vários idiomas, mas o texto de cada item deve estar em apenas um idioma. O texto pode estar nos seguintes idiomas:

  • Chinês (simplificado)

  • Chinês (tradicional)

  • Inglês

  • Francês

  • Alemão

  • Japonês

  • Português

  • Espanhol

Dados numéricos

O Amazon Personalize pode usar metadados numéricos de itens, como preço ou duração do vídeo, para gerar recomendações mais relevantes para os usuários. Esses dados numéricos podem ser representados como números inteiros ou valores decimais.

Se você usar receitas Classificações personalizadas personalizadas User-Personalization ou receitas personalizadas, poderá otimizar uma solução Amazon Personalize para um objetivo relacionado aos metadados do item, além da máxima relevância, como maximizar a receita. Ao configurar sua solução, você escolhe a coluna de metadados numéricos no conjunto de dados Itens que está relacionada ao seu objetivo. Por exemplo, você pode escolher uma LENGTH coluna VIDEO _ para maximizar os minutos de streaming ou uma PRICE coluna para maximizar a receita.

Para obter mais informações, consulte Otimizar uma solução para um objetivo adicional.

Dados de string não categóricos

Com exceção do itemIDs, o Amazon Personalize não usa dados de sequência de caracteres não categóricos não textuais durante o treinamento, como títulos de itens ou dados do autor. No entanto, o Amazon Personalize pode usá-lo com os seguintes recursos. Valores não categóricos podem ter no máximo 1000 caracteres.

  • O Amazon Personalize pode incluir metadados de itens nas recomendações, como valores de string não categóricos. É possível usar metadados para aprimorar as recomendações na interface de usuário, como adicionar o nome do diretor a um carrossel de recomendações de um filme. Para obter mais informações, consulte Metadados do item nas recomendações.

  • Se usar Itens semelhantes, será possível gerar recomendações em lote com temas. Ao gerar recomendações em lote com temas, será necessário especificar uma coluna de nome de item no trabalho de inferência em lote. Para obter mais informações, consulte Recomendações em lote com temas do Content Generator.

  • É possível criar filtros para incluir ou remover itens das recomendações com base em dados de string não categóricos. Para obter mais informações sobre os filtros, consulte Como filtrar recomendações e segmentos de usuários.

Exemplo de metadados de itens

As primeiras linhas dos metadados do filme em um CSV arquivo podem ter a seguinte aparência.

ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...

A ITEM_ID coluna é obrigatória e armazena identificadores exclusivos para cada item individual. A GENRE coluna armazena metadados categóricos para cada filme e a DESCRIPTION coluna são metadados textuais não estruturados. A CREATION_TIMESTAMP coluna armazena a hora de criação de cada item no formato de hora de época do Unix em segundos.

Depois de concluir a preparação dos dados, você estará pronto para criar um JSON arquivo de esquema. Esse arquivo informa ao Amazon Personalize sobre a estrutura dos seus dados. Para obter mais informações, consulte Criação de JSON arquivos de esquema para esquemas do Amazon Personalize. Essa é a aparência do JSON arquivo de esquema para os dados de amostra acima.

{ "type": "record", "name": "Items", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "ITEM_ID", "type": "string" }, { "name": "GENRES", "type": [ "null", "string" ], "categorical": true }, { "name": "CREATION_TIMESTAMP", "type": "long" }, { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true } ], "version": "1.0" }