Criar arquivo CSV - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar arquivo CSV

O Amazon Fraud Detector exige que a primeira linha do seu arquivo CSV contenha cabeçalhos de coluna. Os cabeçalhos das colunas em seu arquivo CSV devem ser mapeados para as variáveis definidas no tipo de evento. Para obter um exemplo de conjunto de dados, consulteObtenha e faça upload de um conjunto de dados de exemplo

O modelo Online Fraud Insights exige um conjunto de dados de treinamento que tenha pelo menos 2 variáveis e até 100 variáveis. Além das variáveis do evento, o conjunto de dados de treinamento deve conter os seguintes cabeçalhos:

  • EVENT_TIMESTAMP - Define quando o evento ocorreu

  • EVENT_LABEL - classifica o evento como fraudulento ou legítimo. Os valores na coluna devem corresponder aos valores definidos no tipo de evento.

O exemplo de dados CSV a seguir representa eventos históricos de registro de um comerciante on-line:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
nota

O arquivo de dados CSV pode conter aspas duplas e vírgulas como parte dos seus dados.

Uma versão simplificada do tipo de evento correspondente está representada abaixo. As variáveis de evento correspondem aos cabeçalhos no arquivo CSV e os valoresEVENT_LABEL correspondem aos valores na lista de rótulos.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

Formato de data/hora do evento

Certifique-se de que a data e hora do seu evento esteja no formato exigido. Como parte do processo de criação do modelo, o tipo de modelo Online Fraud Insights ordena seus dados com base na data e hora do evento e divide seus dados para fins de treinamento e teste. Para obter uma estimativa justa do desempenho, o modelo primeiro treina no conjunto de dados de treinamento e depois testa esse modelo no conjunto de dados de teste.

O Amazon Fraud Detector suporta os seguintes formatos de data/hora para os valores apresentadosEVENT_TIMESTAMP durante o treinamento do modelo:

  • %YYYYY-%MM-%DDT%HH: %mm: %sSz (padrão ISO 8601 em UTC somente sem milissegundos)

    Exemplo: 2019-11-30T 13:01:01 Z

  • %aaaa/%mm/%dd %h: %mm: %s (AM/PM)

    Exemplos: 2019/11/30 13:01:01 ou 2019/11/30 13:01:01

  • %mm/%dd/%aaaa %h: %mm: %s

    Exemplos: 30/11/2019 13:01:01, 30/11/2019 13:01:01

  • %mm/%dd/%y %h: %mm: %s

    Exemplos: 30/11/19 13:01:01 PM, 11/30/19 13:01:01

O Amazon Fraud Detector faz as seguintes suposições ao analisar formatos de data/hora para carimbos de data e hora de eventos:

  • Se você estiver usando o padrão ISO 8601, ele deve corresponder exatamente à especificação anterior

  • Se você estiver usando um dos outros formatos, há flexibilidade adicional:

    • Por meses e dias, você pode fornecer um ou dois dígitos. Por exemplo, 1/12/2019 é uma data válida.

    • Você não precisa incluir hh:mm:ss se não os tiver (ou seja, você pode simplesmente fornecer uma data). Você também pode fornecer um subconjunto de apenas horas e minutos (por exemplo, hh:mm). O simples fornecimento de horas não é suportado. Milissegundos também não são suportados.

    • Se você fornecer etiquetas AM/PM, presume-se que um relógio de 12 horas. Se não houver informações de AM/PM, presume-se que um relógio de 24 horas.

    • Você pode usar “/” ou “-” como delimitadores para os elementos de data. “:” é assumido para os elementos de timestamp.

Amostragem de seu conjunto de dados ao longo do tempo

Recomendamos que você forneça exemplos de fraudes e amostras legítimas no mesmo intervalo de tempo. Por exemplo, se você fornecer eventos de fraude dos últimos 6 meses, você também deve fornecer eventos legítimos que abranjam uniformemente o mesmo período. Se seu conjunto de dados contiver uma distribuição altamente desigual de fraudes e eventos legítimos, você poderá receber o seguinte erro: “A distribuição da fraude ao longo do tempo é inaceitavelmente flutuante. Não é possível dividir o conjunto de dados corretamente.” Normalmente, a solução mais fácil para esse erro é garantir que os eventos de fraude e os eventos legítimos sejam amostrados uniformemente no mesmo período de tempo. Talvez você também precise remover dados caso tenha ocorrido um grande aumento de fraudes em um curto período de tempo.

Se você não conseguir gerar dados suficientes para criar um conjunto de dados distribuído uniformemente, uma abordagem é randomizar o EVENT_TIMESTAMP de seus eventos de forma que eles sejam distribuídos uniformemente. No entanto, isso geralmente resulta em métricas de desempenho irrealistas porque o Amazon Fraud Detector usa EVENT_TIMESTAMP para avaliar modelos no subconjunto apropriado de eventos em seu conjunto de dados.

Valores nulos e faltantes

O Amazon Fraud Detector lida com valores nulos e faltantes. No entanto, a porcentagem de nulos para variáveis deve ser limitada. As colunas EVENT_TIMESTAMP e EVENT_LABEL não devem conter valores ausentes.

Validação de arquivos

O Amazon Fraud Detector não treinará um modelo se uma das seguintes condições for acionada:

  • Se o CSV não puder ser analisado

  • Se o tipo de dados de uma coluna estiver incorreto