Solução de problemas - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

As seções a seguir ajudam você a solucionar problemas que você pode encontrar ao trabalhar com o Amazon Fraud Detector

Solucionar problemas com dados de treinamento

Use as informações desta seção para ajudar a diagnosticar e resolver problemas que você possa ver no painel de diagnóstico de treinamento de modelos no console do Amazon Fraud Detector ao treinar seu modelo.

Os problemas exibidos no painel de diagnóstico de treinamento do modelo são categorizados da seguinte forma. O requisito para resolver o problema depende da categoria do problema.

  • Error icon Erro - faz com que o treinamento do modelo falhe. Esses problemas devem ser resolvidos para que o modelo seja treinado com sucesso.

  • Warning icon Aviso - faz com que o treinamento do modelo continue, no entanto, algumas das variáveis podem estar sendo excluídas do processo de treinamento. Consulte as orientações relevantes nesta seção para melhorar a qualidade do seu conjunto de dados.

  • Information icon Informações (Informações) - não tem impacto no treinamento do modelo e todas as variáveis são usadas para treinamento. Recomendamos que você verifique as orientações relevantes nesta seção para melhorar ainda mais a qualidade do seu conjunto de dados e do desempenho do modelo.

Taxa de fraude instável no conjunto de dados fornecido

Tipo de problema: Erro

Descrição

A taxa de fraude nos dados fornecidos é muito instável ao longo do tempo. Certifique-se de que suas fraudes e eventos legítimos sejam amostrados uniformemente ao longo do tempo.

Causa

Esse erro ocorre se a fraude e os eventos legítimos em seu conjunto de dados forem distribuídos de forma desigual e forem retirados de diferentes horários. O processo de treinamento do modelo Amazon Fraud Detector amostra e particiona seu conjunto de dados com base em EVENT_TIMESTAMP. Por exemplo, se seu conjunto de dados consistir em eventos de fraude retirados dos últimos 6 meses, mas somente o último mês de eventos legítimos for incluído, o conjunto de dados será considerado instável. Um conjunto de dados instável pode levar a vieses na avaliação do desempenho do modelo.

Solução

Certifique-se de fornecer os dados de eventos fraudulentos e legítimos no mesmo horário, para que a taxa de fraude não mude drasticamente com o tempo.

Dados insuficientes

  1. Tipo de problema: Erro

    Descrição

    Menos de 50 linhas são rotuladas como eventos fraudulentos. Garanta que eventos fraudulentos e legítimos excedam a contagem mínima de 50 e treine novamente o modelo.

    Causa

    Esse erro ocorre se seu conjunto de dados tiver menos eventos rotulados como fraudulentos do que o necessário para o treinamento do modelo. O Amazon Fraud Detector exige pelo menos 50 eventos fraudulentos para treinar seu modelo.

    Solução

    Certifique-se de que seu conjunto de dados inclua no mínimo 50 eventos fraudulentos. Você pode garantir isso cobrindo um período de tempo mais longo, se necessário.

  2. Tipo de problema: Erro

    Descrição

    Menos de 50 linhas são rotuladas como eventos legítimos. Garanta que eventos fraudulentos e legítimos excedam a contagem mínima de $ threshold e treine novamente o modelo.

    Causa

    Esse erro ocorre se seu conjunto de dados tiver menos eventos rotulados como legítimos do que o necessário para o treinamento do modelo. O Amazon Fraud Detector exige pelo menos 50 eventos legítimos para treinar seu modelo.

    Solução

    Certifique-se de que seu conjunto de dados inclua no mínimo 50 eventos legítimos. Você pode garantir isso cobrindo um período de tempo mais longo, se necessário.

  3. Tipo de problema: Erro

    Descrição

    O número de entidades exclusivas associadas à fraude é inferior a 100. Considere incluir mais exemplos de entidades fraudulentas para melhorar o desempenho.

    Causa

    Esse erro ocorre se seu conjunto de dados tiver menos entidades com eventos fraudulentos do que o necessário para o treinamento do modelo. O modelo Transaction Fraud Insights (TFI) exige pelo menos 100 entidades com eventos de fraude para garantir a cobertura máxima do espaço de fraude. O modelo pode não se generalizar bem se todos os eventos de fraude forem realizados por um pequeno grupo de entidades.

    Solução

    Certifique-se de que seu conjunto de dados inclua pelo menos 100 entidades com eventos fraudulentos. Você pode garantir que isso cubra um período de tempo mais longo, se necessário.

  4. Tipo de problema: Erro

    Descrição

    O número de entidades exclusivas associadas a entidades legítimas é inferior a 100. Considere incluir mais exemplos de entidades legítimas para melhorar o desempenho.

    Causa

    Esse erro ocorre se seu conjunto de dados tiver menos entidades com eventos legítimos do que o necessário para o treinamento do modelo. O modelo Transaction Fraud Insights (TFI) exige pelo menos 100 entidades com eventos legítimos para garantir a cobertura máxima do espaço de fraude. O modelo pode não se generalizar bem se todos os eventos legítimos forem executados por um pequeno grupo de entidades.

    Solução

    Certifique-se de que seu conjunto de dados inclua pelo menos 100 entidades com eventos legítimos. Você pode garantir que isso cubra um período de tempo mais longo, se necessário.

  5. Tipo de problema: Erro

    Descrição

    Menos de 100 linhas estão no conjunto de dados. Certifique-se de que haja mais de 100 linhas no conjunto de dados total e que pelo menos 50 linhas sejam rotuladas como fraudulentas.

    Causa

    Esse erro ocorre se seu conjunto de dados contiver menos de 100 registros. O Amazon Fraud Detector exige dados de pelo menos 100 eventos (registros) em seu conjunto de dados para treinamento de modelos.

    Solução

    Verifique se você tem dados de mais de 100 eventos em seu conjunto de dados.

Valores de EVENT_LABEL ausentes ou diferentes

  1. Tipo de problema: Erro

    Descrição

    Mais de 1% da coluna EVENT_LABEL são nulos ou são valores diferentes dos definidos na configuração do modelo. $label_values Verifique se você tem menos de 1% dos valores ausentes na coluna EVENT_LABEL e se os valores são aqueles definidos na configuração do modelo. $label_values

    Causa

    Esse erro ocorre devido a um dos seguintes motivos:

    • Mais de 1% dos registros no arquivo CSV contendo seus dados de treinamento têm valores ausentes na coluna EVENT_LABEL.

    • Mais de 1% dos registros no arquivo CSV contendo seus dados de treinamento têm valores na coluna EVENT_LABEL que são diferentes daqueles associados ao seu tipo de evento.

    O modelo Online Fraud Insights (OFI) exige que a coluna EVENT_LABEL em cada registro seja preenchida com um dos rótulos associados ao seu tipo de evento (ou mapeado). CreateModelVersion

    Solução

    Se esse erro for devido aos valores ausentes de EVENT_LABEL, considere atribuir rótulos adequados a esses registros ou excluí-los do seu conjunto de dados. Se esse erro ocorrer porque os rótulos de alguns registros não estão entre eleslabel_values, certifique-se de adicionar todos os valores na coluna EVENT_LABEL aos rótulos do tipo de evento e mapeados como fraudulentos ou legítimos (fraudulentos, legítimos) na criação do modelo.

  2. Tipo de problema: Informações

    Descrição

    Sua coluna EVENT_LABEL contém valores nulos ou valores de rótulo diferentes dos definidos na configuração do modelo. $label_values Esses valores inconsistentes foram convertidos em “não fraudulentos” antes do treinamento.

    Causa

    Você obtém essas informações por um dos seguintes motivos:

    • Menos de 1% dos registros no arquivo CSV contendo seus dados de treinamento têm valores ausentes na coluna EVENT_LABEL

    • Menos de 1% dos registros no arquivo CSV contendo seus dados de treinamento têm valores na coluna EVENT_LABEL que são diferentes daqueles associados ao seu tipo de evento.

    O treinamento do modelo em ambos os casos será bem-sucedido. No entanto, os valores de rótulo desses eventos que têm valores de rótulo ausentes ou não mapeados são convertidos em legítimos. Se você considerar que isso é um problema, siga a solução fornecida abaixo.

    Solução

    Se houver valores de EVENT_LABEL ausentes em seu conjunto de dados, considere eliminar esses registros do seu conjunto de dados. Se os valores fornecidos para esses EVENT_LABELS não forem mapeados, certifique-se de que todos esses valores sejam mapeados como fraudulentos ou legítimos (fraudulentos, legítimos) para cada evento.

Valores de EVENT_TIMESTAMP ausentes ou incorretos

  1. Tipo de problema: Erro

    Descrição

    Seu conjunto de dados de treinamento contém EVENT_TIMESTAMP com timestamps que não estão em conformidade com os formatos aceitos. Verifique se o formato é um dos formatos de data e hora aceitos.

    Causa

    Esse erro ocorre se a coluna EVENT_TIMESTAMP contiver um valor que não esteja em conformidade com os formatos de timestamp compatíveis com o Amazon Fraud Detector.

    Solução

    Certifique-se de que os valores fornecidos para a coluna EVENT_TIMESTAMP estejam em conformidade com os formatos de carimbo de data/hora compatíveis. Se você tiver valores ausentes na coluna EVENT_TIMESTAMP, você pode preenchê-los com valores usando o formato de carimbo de data/hora compatível ou considerar descartar completamente o evento em vez de inserir cadeias de caracteres como, ou. none null missing

  2. Tipo de problema: Erro

    Seu conjunto de dados de treinamento contém EVENT_TIMESTAMP com valores ausentes. Certifique-se de que você não tenha valores faltantes.

    Causa

    Esse erro ocorre se a coluna EVENT_TIMESTAMP em seu conjunto de dados tiver valores ausentes. O Amazon Fraud Detector exige que a coluna EVENT_TIMESTAMP em seu conjunto de dados tenha valores.

    Solução

    Certifique-se de que a coluna EVENT_TIMESTAMP em seu conjunto de dados tenha valores e que esses valores estejam em conformidade com os formatos de carimbo de data/hora compatíveis. Se você tiver valores ausentes na coluna EVENT_TIMESTAMP, você pode preenchê-los com valores usando o formato de carimbo de data/hora compatível ou considerar descartar completamente o evento em vez de inserir cadeias de caracteres como, ou. none null missing

Dados não ingeridos

Tipo de problema: Erro

Descrição

Nenhum evento ingerido foi encontrado para treinamento. Verifique sua configuração de treinamento.

Causa

Esse erro ocorre se você estiver criando um modelo com dados de eventos armazenados com o Amazon Fraud Detector, mas não importou seu conjunto de dados para o Amazon Fraud Detector antes de começar a treinar seu modelo.

Solução

Use a operação da SendEvent API, a operação da CreateBatchImportJob API ou o recurso de importação em lote no console do Amazon Fraud Detector para primeiro importar os dados do evento e depois treinar seu modelo. Consulte Conjuntos de dados de eventos armazenados para obter mais informações.

nota

Recomendamos esperar 10 minutos depois de terminar de importar seus dados antes de usá-los para treinar seu modelo.

Você pode usar o console Amazon Fraud Detector para verificar o número de eventos já armazenados para cada tipo de evento. Consulte Visualização de métricas de seus eventos armazenados para obter mais informações.

Variáveis insuficientes

Tipo de problema: Erro

Descrição

O conjunto de dados deve conter pelo menos 2 variáveis adequadas para treinamento.

Causa

Esse erro ocorre se o conjunto de dados contiver menos de duas variáveis adequadas para o treinamento do modelo. O Amazon Fraud Detector considera uma variável adequada para o treinamento de modelos somente se ela for aprovada em todas as validações. Se uma variável falhar na validação, ela será excluída no treinamento do modelo e você verá uma mensagem no Diagnóstico do treinamento do modelo.

Solução

Certifique-se de que seu conjunto de dados tenha pelo menos duas variáveis preenchidas com valores e aprovado em todas as validações de dados. Observe que a linha de metadados do evento em que você forneceu os cabeçalhos das colunas (EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL etc.) não é considerada variável.

Tipo de variável ausente ou incorreto

Tipo de problema: Aviso

Descrição

O tipo de dados esperado para $variable_name é NUMERIC. Revise e $variable_name atualize seu conjunto de dados e treine novamente o modelo.

Causa

Você receberá esse aviso se uma variável for definida como uma variável NUMERIC, mas no conjunto de dados ela tiver valores que não podem ser convertidos em NUMERIC. Como resultado, essa variável é excluída no treinamento do modelo.

Solução

Se você quiser mantê-la como uma variável NUMERIC, certifique-se de que os valores fornecidos possam ser convertidos em números flutuantes. Observe que, se a variável contiver valores ausentes, não os preencha com cadeias de caracteres como nonenenull, oumissing. Se a variável contiver valores não numéricos, recrie-a como um tipo de variável CATEGÓRICA ou FREE_FORM_TEXT.

Valores de variáveis ausentes

Tipo de problema: Aviso

Descrição

Maiores do que $threshold valores para $variable_name estão faltando em seu conjunto de dados de treinamento. Considere modificar seu conjunto $variable_name de dados e treinar novamente para melhorar o desempenho.

Causa

Você receberá esse aviso se a variável especificada estiver sendo descartada devido a muitos valores ausentes. O Amazon Fraud Detector permite valores faltantes para uma variável. No entanto, se uma variável tiver muitos valores ausentes, ela não contribui muito para o modelo e essa variável é descartada no treinamento do modelo.

Solução

Primeiro, verifique se esses valores faltantes não se devem a erros na coleta e preparação dos dados. Se forem erros, considere retirá-los do treinamento de modelos. No entanto, se você acredita que esses valores ausentes são valiosos e ainda deseja manter essa variável, pode preencher manualmente os valores ausentes com uma constante no treinamento do modelo e na inferência em tempo real.

Valores variáveis exclusivos insuficientes

Tipo de problema: Aviso

Descrição

A contagem de valores exclusivos de $variable_name é menor que 100. Revise e $variable_name atualize seu conjunto de dados e treine novamente o modelo.

Causa

Você receberá esse aviso se o número de valores exclusivos da variável especificada for menor que 100. Os limites variam de acordo com o tipo de variável. Com poucos valores exclusivos, existe o risco de o conjunto de dados não ser geral o suficiente para cobrir o espaço de recursos dessa variável. Como resultado, o modelo pode não se generalizar bem nas previsões em tempo real.

Solução

Primeiro, certifique-se de que a distribuição variável seja representativa do tráfego comercial real. Em seguida, você pode adotar mais variáveis bem treinadas com maior cardinalidade, como usar full_customer_name em vez de first_name e last_name separadamente, ou alterar o tipo de variável para CATEGÓRICO, o que permite menor cardinalidade.

Expressão de variável incorreta

  1. Tipo de problema: Informações

    Descrição

    Mais de 50% dos $email_variable_name valores não correspondem à expressão regular esperada http://emailregex.com. Considere modificar seu conjunto $email_variable_name de dados e treinar novamente para melhorar o desempenho.

    Causa

    Essas informações serão exibidas se mais de 50% dos registros em seu conjunto de dados tiverem valores de e-mail que não estejam em conformidade com uma expressão de e-mail regular e, portanto, falharem na validação.

    Solução

    Formate os valores das variáveis de e-mail para que estejam em conformidade com a expressão regular. Se faltarem valores de e-mail, recomendamos deixá-los vazios em vez de preenchê-los com cadeias de caracteres como nonenull, oumissing.

  2. Tipo de problema: Informações

    Descrição

    Mais de 50% dos $IP_variable_name valores não correspondem à expressão regular para endereços IPv4 ou IPv6 https://digitalfortress.tech/tricks/top-15 - /. commonly-used-regex Considere modificar seu conjunto $IP_variable_name de dados e treinar novamente para melhorar o desempenho.

    Causa

    Essas informações serão exibidas se mais de 50% dos registros em seu conjunto de dados tiverem valores de IP que não estejam em conformidade com uma expressão de IP regular e, portanto, falharem na validação.

    Solução

    Formate os valores de IP para que estejam em conformidade com a expressão regular. Se faltarem valores de IP, recomendamos deixá-los vazios em vez de preenchê-los com cadeias de caracteres como nonenull, oumissing.

  3. Tipo de problema: Informações

    Descrição

    Mais de 50% dos $phone_variable_name valores não correspondem à expressão regular básica do telefone /$pattern/. Considere modificar seu conjunto $phone_variable_name de dados e treinar novamente para melhorar o desempenho.

    Causa

    Essas informações serão exibidas se mais de 50% dos registros em seu conjunto de dados tiverem números de telefone que não estejam em conformidade com uma expressão normal de número de telefone e, portanto, falharem na validação.

    Solução

    Formate os números de telefone de acordo com a expressão regular. Se faltarem números de telefone, recomendamos deixá-los vazios em vez de preenchê-los com sequências de caracteres comonone,null, oumissing.

Entidades exclusivas insuficientes

Tipo de problema: Informações

Descrição

O número de entidades exclusivas é inferior a 1500. Considere incluir mais dados para melhorar o desempenho.

Causa

Essas informações são exibidas se seu conjunto de dados tiver um número menor de entidades exclusivas do que o número recomendado. O modelo Transaction Fraud Insights (TFI) usa agregados de séries temporais e recursos genéricos de transação para fornecer o melhor desempenho. Se seu conjunto de dados tiver poucas entidades exclusivas, a maioria dos seus dados genéricos, como IP_ADDRESS, EMAIL_ADDRESS, talvez não tenha valores exclusivos. Então, também existe o risco de que esse conjunto de dados não seja geral o suficiente para cobrir o espaço de recursos dessa variável. Como resultado, o modelo pode não se generalizar bem em transações de novas entidades.

Solução

Inclua mais entidades. Estenda o intervalo de tempo dos dados de treinamento, se necessário.