Preparar os metadados do usuário para treinamento - Amazon Personalize

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparar os metadados do usuário para treinamento

Os dados de usuário que podem ser importados para o Amazon Personalize incluem dados numéricos, como idade, e metadados categóricos, como gênero ou associação de fidelidade. Você importa metadados sobre seus usuários para um conjunto de dados de usuários do Amazon Personalize.

Dependendo do caso de uso do seu domínio ou da fórmula personalizada, os metadados do usuário podem ajudar o Amazon Personalize a recomendar itens mais relevantes ou segmentos de usuários mais significativos. E após o treinamento, eles podem ajudar seu modelo a recomendar itens para usuários sem nenhum dado de interação. Para obter mais informações sobre quais casos de uso ou fórmulas usam metadados do usuário, consulte os requisitos de dados para o caso de uso ou fórmula do seu domínio em Combinar seus casos de uso com os recursos do Amazon Personalize.

No treinamento, o Amazon Personalize não usa dados de string não categóricos, como nomes de usuários, palavras-chave sobre o usuário ou tags. No entanto, importar esses dados ainda pode melhorar as recomendações. Para obter mais informações, consulte Dados de string não categóricos.

Para todos os casos de uso de domínio e fórmulas personalizadas, os dados do usuário em massa precisam estar em um arquivo CSV. Cada linha no arquivo deve representar um usuário exclusivo. Quando terminar de preparar os dados, você poderá criar um arquivo JSON do esquema. Esse arquivo informa a estrutura dos seus dados ao Amazon Personalize. Para obter mais informações, consulte Criar arquivos JSON de esquema para esquemas do Amazon Personalize.

As seções a seguir fornecem mais informações sobre como preparar seus dados de usuário para o Amazon Personalize. Para conhecer as diretrizes de formato de dados em massa para todos os tipos de dados, consulte as diretrizes de formato de dados em massa.

Requisitos de dados do usuário

A seguir veja os requisitos de dados do usuário para o Amazon Personalize. Você pode adicionar outras colunas personalizadas dependendo do seu caso de uso e dos seus dados.

  • Seus dados precisam ter uma coluna USER_ID que armazene o identificador exclusivo de cada usuário. Todo usuário deve ter um ID de usuário. Esse nome deve ter uma string com até 256 caracteres.

  • Seus dados precisam ter pelo menos uma string categórica ou coluna de metadados numéricos. As colunas de metadados do usuário podem incluir valores vazios/nulos para alguns usuários. Recomendamos que essas colunas estejam no mínimo 70% completas.

  • O número máximo de colunas de metadados é 25.

Se não souber se há dados suficientes ou tiver dúvidas sobre a qualidade deles, importe seus dados para um conjunto de dados do Amazon Personalize para analisá-los. Para obter mais informações, consulte Analisar a qualidade e a quantidade de dados nos conjuntos de dados do Amazon Personalize.

Metadados categóricos

Com algumas fórmulas e todos os casos de uso de domínios, o Amazon Personalize usa metadados categóricos, como o gênero, os interesses ou o status de associação do usuário, ao identificar padrões secundários que revelam os itens mais importantes para seus usuários. Você define o próprio intervalo de valores com base em seu caso de uso. Os metadados categóricos podem estar em qualquer idioma.

Para usuários com várias categorias, separe cada valor usando a barra vertical '|'. Por exemplo, para um campo INTERESTS, os dados de um usuário podem ser Movies|TV Shows|Music.

Com todas as fórmulas e domínios, você pode importar metadados categóricos e usá-los para filtrar recomendações com base nos atributos do usuário. Para obter informações sobre como filtrar recomendações, consulte Como filtrar recomendações e segmentos de usuários.

Os valores categóricos podem ter no máximo 1000 caracteres. Se você tiver um usuário com um valor categórico com mais de 1.000 caracteres, sua tarefa de importação do conjunto de dados falhará.

Dados de string não categóricos

Com exceção dos IDs de usuário, o Amazon Personalize não usa dados de itens de string não categóricos no treinamento, como nomes de usuários, palavras-chave sobre o usuário ou tags. No entanto, o Amazon Personalize pode usá-los ao filtrar as recomendações. É possível criar filtros para incluir ou remover itens das recomendações com base nos dados de string não categóricos sobre o usuário para o qual você está obtendo recomendações (CurrentUser). Para obter mais informações sobre os filtros, consulte Como filtrar recomendações e segmentos de usuários. Os valores não categóricos podem ter até 1.000 caracteres.

Exemplo de metadados de usuários

As primeiras linhas de metadados do usuário em um arquivo CSV podem ser semelhantes ao mostrado a seguir.

USER_ID,AGE,GENDER,INTEREST 5,34,Male,hiking 6,56,Female,music 8,65,Male,movies|TV shows|music ... ...

A coluna USER_ID é obrigatória e armazena identificadores exclusivos para cada usuário individual. A coluna AGE é composta por metadados numéricos. As colunas INTEREST e GENDER armazenam metadados categóricos para cada usuário.

Quando terminar de preparar os dados, você poderá criar um arquivo JSON do esquema. Esse arquivo informa a estrutura dos seus dados ao Amazon Personalize. Para obter mais informações, consulte Criar arquivos JSON de esquema para esquemas do Amazon Personalize. Essa é a aparência do arquivo JSON do esquema para os dados de amostra acima.

{ "type": "record", "name": "Users", "namespace": "com.amazonaws.personalize.schema", "fields": [ { "name": "USER_ID", "type": "string" }, { "name": "AGE", "type": "int" }, { "name": "GENDER", "type": "string", "categorical": true }, { "name": "INTEREST", "type": "string", "categorical": true } ], "version": "1.0" }