Como funciona o IP Insights - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como funciona o IP Insights

O Amazon SageMaker IP Insights é um algoritmo não supervisionado que consome dados observados na forma de pares (entidade, endereço IPv4) que associam entidades a endereços IP. O IP Insights determina a probabilidade de uma entidade usar um determinado endereço IP, aprendendo representações vetoriais latentes para entidades e endereços IP. A distância entre essas duas representações pode servir como substituto para a probabilidade dessa associação.

O algoritmo IP Insights usa uma rede neural para aprender as representações de vetores latentes para entidades e endereços IP. Primeiramente, as entidades são codificadas em hash para um espaço de hash grande, mas fixo, e depois codificadas por uma camada de incorporação simples. As strings de caracteres, como nomes de usuário ou IDs de conta, podem ser alimentadas diretamente no IP Insights à medida que aparecem nos arquivos de log. Você não precisa pré-processar os dados para identificadores de entidade. É possível fornecer entidades como um valor de string arbitrário durante o treinamento e a inferência. O tamanho do hash deve ser configurado com um valor que seja alto o suficiente para garantir que o número de colisões, que ocorrem quando entidades distintas são mapeadas para o mesmo vetor latente, permaneça insignificante. Para obter mais informações sobre como selecionar tamanhos de hash apropriados, consulte Hash de recursos para aprendizagem multitarefas em grande escala. Por outro lado, para representar endereços IP, o IP Insights usa uma rede de codificadores especialmente projetada para representar de maneira exclusiva cada possível endereço IPv4, explorando a estrutura de prefixo dos endereços IP.

Durante o treinamento, o IP Insights gera automaticamente amostras negativas, emparelhando entidades e endereços IP aleatoriamente. Essas amostras negativas representam dados com a menor probabilidade de ocorrer em uma situação real. O modelo é treinado para discriminar entre amostras positivas que são observadas nos dados de treinamento e essas amostras negativas geradas. Mais especificamente, o modelo é treinado para minimizar a entropia cruzada, também conhecida como perda de log, definida da seguinte maneira:

Uma imagem contendo a equação de perda de log.

yn é o rótulo que indica se a amostra é da distribuição real que governa os dados observados (yn=1) ou da distribuição gerando amostras negativas (yn=0). pn é a probabilidade de que a amostra seja da distribuição real, conforme previsto pelo modelo.

A geração de amostras negativas é um processo importante usado para obter um modelo preciso dos dados observados. Se amostras negativas forem extremamente improváveis, por exemplo, se todos os endereços IP em amostras negativas forem 10.0.0.0, o modelo aprenderá trivialmente a distinguir amostras negativas e não conseguirá caracterizar com precisão o conjunto de dados real observado. Para manter as amostras negativas mais realistas, o IP Insights gera amostras negativas gerando endereços IP aleatoriamente e escolhendo endereços IP aleatoriamente dos dados de treinamento. Você pode configurar o tipo de amostragem negativa e as taxas nas quais as amostras negativas são geradas com os hiperparâmetros random_negative_sampling_rate e shuffled_negative_sampling_rate.

Dado um enésimo (par de entidade, endereço IP), o modelo IP Insights produz uma pontuação, Sn, que indica o quão compatível é a entidade com o endereço IP. Essa pontuação corresponde à proporção de chances de log para uma determinada (entidade, endereço IP) do par proveniente de uma distribuição real em comparação com aquela proveniente de uma distribuição negativa. Ela é definida da seguinte maneira:

Uma imagem contendo a equação para a pontuação, uma proporção de chances de log.

A pontuação é essencialmente uma medida da semelhança entre as representações vetoriais da enésima entidade e endereço IP. Isso pode ser interpretado como uma probabilidade muito maior de observar esse evento na realidade do que em um conjunto de dados gerado aleatoriamente. Durante o treinamento, o algoritmo usa essa pontuação para calcular uma estimativa da probabilidade de uma amostra proveniente da distribuição real, pn, para uso na minimização da entropia cruzada, em que:

Uma imagem mostrando a equação da probabilidade de que a amostra seja de uma distribuição real.