Analisando a qualidade e a quantidade de dados em conjuntos de dados - Amazon Personalize

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Analisando a qualidade e a quantidade de dados em conjuntos de dados

Depois de importar dados para um conjunto de dados de interações com itens, de usuários ou de itens, é possível usar o console do Amazon Personalize para analisá-los. Você pode aprender sobre seus dados por meio de insights de dados e estatísticas de colunas e linhas. E você pode saber quais ações tomar para melhorar seus dados. Essas ações podem ajudar você a atender aos requisitos de recursos do Amazon Personalize, como requisitos de treinamento de modelos, ou podem levar a recomendações aprimoradas.

Importante

Não é possível usar o console do Amazon Personalize para analisar dados em um conjunto de dados de interações com ações ou de ações.

Depois de fazer as alterações recomendadas, você pode importar seus dados novamente e ver se os problemas foram resolvidos ou se as estatísticas do conjunto de dados melhoraram. Para obter informações sobre como atualizar dados, consulte Importação de mais dados de treinamento para conjuntos de dados.

Se você não vir nenhum insight, seus dados estarão alinhados às expectativas de dados do Amazon Personalize. Você pode analisar dados em um grupo de conjuntos de dados de domínio ou grupo de conjuntos de dados personalizados.

Ao gerar insights e calcular estatísticas, o Amazon Personalize considera todos os dados em massa e transmitidos de usuários não anônimos. Eventos de usuários anônimos não são considerados até que você os associe a um userId. Para ter mais informações, consulte Como registrar eventos de usuários anônimos.

Permissões necessárias para analisar dados

Se você der aos usuários acesso total ao Amazon Personalize, nenhuma alteração de permissão será necessária. Se você conceder aos seus usuários somente as permissões necessárias para realizar uma tarefa no Amazon Personalize, sua política AWS Identity and Access Management (IAM) deverá incluir as seguintes ações adicionais de insights de dados.

  • personalizar: CreateDataInsightsJob

  • personalizar: ListDataInsightsJobs

  • personalizar: DescribeDataInsightsJob

  • personalizar: GetDataInsights

Insights de dados

Veja a seguir os possíveis insights de dados que você pode gerar no Amazon Personalize.

Insight Ação Conjunto(s) de dados relacionado(s)
O conjunto de dados de interações tem apenas X interações. O treinamento de modelos requer um mínimo de 1.000 interações. Recomendamos pelo menos 50.000. Importe Y registros adicionais de interações exclusivas antes de treinar um modelo. Interações com itens
O conjunto de dados de interações tem apenas X usuários exclusivos com duas ou mais interações. O treinamento de modelos requer pelo menos 25 desses usuários. Recomendamos pelo menos 1.000. Importe pelo menos dois registros de interações cada para Y usuários adicionais. Interações com itens
X% dos itens no conjunto de dados Itens não têm interações no conjunto de dados de interações, portanto, eles podem não ser recomendados.

Certifique-se de importar todos os seus dados de interações e verificar se há IDs incompatíveis entre seus itens e conjuntos de dados de interações. Verifique as estatísticas do conjunto de dados abaixo para seus itens e conjuntos de dados de interações para garantir que você tenha importado o número esperado de linhas. Se o seu caso de uso ou fórmula usar exploração, modifique a configuração de exploração para recomendar mais itens sem dados de interações.

Itens e interações com itens
X% dos usuários no conjunto de dados Usuários não têm interações no conjunto de dados de interações. Esses usuários receberão recomendações para itens populares.

Certifique-se de importar todos os seus dados de interações e verificar se há IDs incompatíveis entre seus usuários e conjuntos de dados de interações. Verifique as estatísticas do conjunto de dados abaixo para seus usuários e conjuntos de dados de interações para garantir que você tenha importado o número esperado de linhas. Importe quaisquer interações adicionais para que mais usuários tenham dados de interações.

Usuários e interações com itens
O conjunto de dados <Usuários ou Itens ou Interações> tem X% de linhas com um valor ausente. Isso pode afetar negativamente as recomendações. Recomendamos que todos os campos obrigatórios e opcionais estejam pelo menos 70% preenchidos.

Importe registros completos adicionais ou importe dados novamente sem linhas incompletas ou importe dados novamente com valores ausentes substituídos por dados substitutos, como a média para colunas numéricas ou o valor mais comum para colunas categóricas.

Any
As seguintes colunas no <datasetType>conjunto de dados estão menos de 70% completas: <ColumnName, ColumnName... >. Se esses dados forem incluídos no treinamento, isso poderá afetar negativamente as recomendações. Recomendamos que as colunas que permitem valores nulos estejam pelo menos 70% completas.

Importe registros completos adicionais ou importe dados novamente sem linhas incompletas ou importe dados novamente com valores ausentes substituídos por dados substitutos, como a média para colunas numéricas ou o valor mais comum para colunas categóricas.

Any
As seguintes colunas (numéricas) têm valores discrepantes: <ColumnName, ColumnName... >. Os valores discrepantes nem sempre são um problema, mas às vezes afetam negativamente as recomendações.

Usando as estatísticas de coluna abaixo, verifique se os valores mínimo e máximo dessas colunas correspondem às suas expectativas. Se esses valores forem inesperados, verifique se há imprecisões nos dados dessas colunas e se há problemas na coleta e no processamento de dados.

Any
As seguintes colunas têm mais de 1000 categorias possíveis: <ColumnName, ColumnName... >. Se esses dados forem incluídos no treinamento, eles podem impactar negativamente as recomendações: <ColumnName, ColumnName... >.

Verifique se há problemas nos dados categóricos, como categorias duplicadas causadas por variações na ortografia. Resolva quaisquer imprecisões e importe os dados novamente.

Any
As seguintes colunas de metadados textuais estão menos de 85% por cento completas e não serão usadas no treinamento de modelos: <ColumnName, ColumnName... >.

Importe linhas adicionais ou importe as linhas novamente com dados de texto para essa(s) coluna(s).

Itens
O conjunto de dados de interações tem mais de dez tipos de eventos exclusivos, o que fará com que o treinamento do modelo falhe.

Verifique se há imprecisões na coluna de tipo de evento, como tipos de eventos duplicados causados por variações na ortografia. Remova tipos de eventos desnecessários e importe dados novamente.

Interações com itens
O conjunto de dados de interações tem o mesmo carimbo de data/hora para todos os registros. Se você usar uma fórmula USER_SEGMENTATION e todos os registros tiverem o mesmo carimbo de data/hora, o treinamento do modelo falhará.

Verifique se há problemas de carimbo de data/hora nos seus dados e substitua carimbos de data/hora duplicados por carimbos de data/hora exclusivos.

Interações com itens

Visualizar estatísticas e insights do conjunto de dados

Para visualizar insights e estatísticas sobre seus dados nos conjuntos de dados do Amazon Personalize, navegue até seus conjuntos de dados no console do Amazon Personalize e opte por executar análise.

Para visualizar insights e estatísticas
  1. Abra o console do Amazon Personalize em https://console.aws.amazon.com/personalize/home e faça login na sua conta.

  2. Na página Grupos de conjuntos de dados, escolha seu grupo de conjuntos de dados.

  3. No painel de navegação, em Conjuntos de dados, selecione Análise de dados.

  4. No canto superior direito, escolha Executar análise. O Amazon Personalize começa a analisar seus dados. Esse processo pode levar até 15 minutos. Se for bem-sucedido, os resultados aparecerão nessa página.

  5. Em Insights, use o seguinte para filtrar os insights que aparecerem.

    • Para encontrar insights que incluam um idioma específico, insira seus critérios em Encontrar insights. Conforme você insere o texto, a lista é atualizada para incluir somente insights com a sequência de caracteres exata no insight ou na ação recomendada.

    • Para filtrar os insights por tipo de conjunto de dados, altere Todos os conjuntos de dados para o tipo de conjunto de dados específico. A lista é atualizada para incluir somente insights relacionados a esse conjunto de dados.

  6. Para visualizar as estatísticas de um conjunto de dados, faça o seguinte.

    • Para ver detalhes gerais e estatísticas sobre um conjunto de dados, como o número de linhas, usuários exclusivos e itens exclusivos em um conjunto de dados de interações, expanda a seção do conjunto de dados.

    • Para visualizar estatísticas detalhadas de uma coluna, expanda a seção do conjunto de dados, selecione Estatísticas no nível da coluna e escolha o botão de opção para a coluna.

  7. Corrija quaisquer problemas em seus dados, importe-os novamente e execute outra análise para verificar. Para obter mais informações sobre como importar dados novamente, consulte Importação de mais dados de treinamento para conjuntos de dados.