IP Insights - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

IP Insights

O Amazon SageMaker IP Insights é um algoritmo de aprendizado não supervisionado que aprende os padrões de uso de endereços IPv4. Ele é projetado para capturar associações entre endereços IPv4 e várias entidades, como IDs de usuários ou números de contas. Você pode usá-lo para identificar um usuário que tenta fazer login em um serviço da web a partir de um endereço IP anormal, por exemplo. Outro exemplo de aplicação é usá-lo para identificar uma conta que está tentando criar recursos de computação a partir de um endereço IP incomum. Os modelos treinados do Insight IP podem ser hospedados em um endpoint para fazer previsões em tempo real ou usados para processar transformações em lote

SageMaker O IP Insights ingere dados históricos como pares (entidade, endereço IPv4) e aprende os padrões de uso de IP de cada entidade. Quando consultado com um evento (entidade, endereço IPv4), um modelo do SageMaker IP Insights retorna uma pontuação que infere o quão anômalo é o padrão do evento. Por exemplo, quando um usuário tenta fazer login de um endereço IP, se a pontuação do IP Insights for alta o suficiente, um servidor de login da web poderá optar por disparar um sistema de autenticação multifator. Em soluções mais avançadas, você pode inserir a pontuação do IP Insights em outro modelo de machine learning. Por exemplo, você pode combinar a pontuação do IP Insight com outros recursos para classificar as descobertas de outro sistema de segurança, como os da Amazon GuardDuty.

O algoritmo SageMaker IP Insights também pode aprender representações vetoriais de endereços IP, conhecidas como incorporações. Você pode usar incorporações codificadas por vetor como recursos em tarefas de descendentes de machine learning que usam as informações observadas nos endereços IP. Por exemplo, você pode usá-las em tarefas como medir semelhanças entre endereços IP em tarefas de agrupamento e visualização.

Interface de entrada/saída para o algoritmo IP Insights

Treinamento e validação

O algoritmo SageMaker IP Insights suporta canais de dados de treinamento e validação. Ele usa o canal de validação opcional para calcular uma pontuação area-under-curve (AUC) em uma estratégia de amostragem negativa predefinida. A métrica AUC valida o quão bem o modelo discrimina entre amostras positivas e negativas. Os tipos de conteúdo de dados de treinamento e validação precisam estar no formato text/csv. A primeira coluna dos dados CSV é uma string opaca que fornece um identificador exclusivo para a entidade. A segunda coluna é um endereço IPv4 em notação de pontos decimais. No momento, o IP Insights oferece suporte apenas para o modo de Arquivo. Para obter mais informações e alguns exemplos, consulte Formatos de dados de treinamento para IP Insights.

Inferência

Para inferência, o IP Insights é compatível com os tipos de conteúdo de dados text/csv, application/json e application/jsonlines. Para obter mais informações sobre os formatos de dados comuns para inferência fornecidos por SageMaker, consulteFormatos de dados comuns para inferência. A inferência do IP Insights retorna a saída formatada como application/json ou application/jsonlines. Cada registro nos dados de saída contém o dot_product correspondente (ou pontuação de compatibilidade) para cada ponto de dados de entrada. Para obter mais informações e alguns exemplos, consulte Formatos de dados de inferência para IP Insights.

Recomendação de instâncias do EC2 para o algoritmo IP Insights

O algoritmo SageMaker IP Insights pode ser executado em instâncias de GPU e CPU. Para trabalhos de treinamento, recomendamos o uso de instâncias de GPU. No entanto, para determinadas cargas de trabalho com grandes conjuntos de dados de treinamento, instâncias de CPU distribuídas podem reduzir os custos de treinamento. Para inferência, recomendamos o uso de instâncias de CPU. O IP Insights oferece suporte às famílias de GPU P2, P3, G4dn e G5.

Instâncias de GPU para o algoritmo IP Insights

O IP Insights oferece suporte para todas as GPUs disponíveis. Se você precisar acelerar o treinamento, recomendamos começar com uma única instância de GPU, como ml.p3.2xlarge, e depois mudar para um ambiente de várias GPUs, como ml.p3.8xlarge e ml.p3.16xlarge. GPUs múltiplas dividem automaticamente os minilotes de dados de treinamento entre si. Se você alternar de uma GPU única para GPUs múltiplas, mini_batch_size será dividido igualmente entre o número de GPUs usadas. Convém aumentar o valor de mini_batch_size para compensar isso.

Instâncias de CPU para o algoritmo IP Insights

O tipo de instância de CPU recomendado depende em grande parte da memória disponível da instância e do tamanho do modelo. O tamanho do modelo é determinado por dois hiperparâmetros: vector_dim e num_entity_vectors. O tamanho máximo do modelo com suporte é de 8 GB. A tabela a seguir lista os tipos de instância do EC2 típicos que você pode implantar com base nesses parâmetros de entrada para vários tamanhos de modelo. Na Tabela 1, o valor para vector_dim na primeira coluna varia de 32 a 2048, e os valores para num_entity_vectors na primeira linha variam de 10.000 a 50.000.000.

vector_dim \ num_entity_vectors. 10.000 50.000 100.000 500,000 1.000.000 5,000,000 10,000,000 50,000,000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

Os valores para os hiperparâmetros mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate também afetam a quantidade de memória necessária. Se esses valores forem grandes, talvez seja necessário usar um tipo de instância maior que o normal.

Blocos de anotações de amostra de IP Insights

Para ver um exemplo de caderno que mostra como treinar o algoritmo SageMaker IP Insights e realizar inferências com ele, consulte Uma introdução ao algoritmo SageMaker IP Insights. Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar o exemplo SageMaker, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância de notebook, escolha a guia SageMaker Exemplos para ver uma lista de todos os SageMaker exemplos. Para abrir um caderno, escolha sua guia Use (Uso) e depois escolha Create copy (Criar cópia).