IP Insights

Modo de foco

IP Insights - SageMaker IA da Amazon

Interface de entrada/saída para o algoritmo IP Insights EC2 Recomendação de instância para o algoritmo IP Insights Cadernos de exemplo

O Amazon SageMaker AI IP Insights é um algoritmo de aprendizado não supervisionado que aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas. Você pode usá-lo para identificar um usuário que tenta fazer login em um serviço da web a partir de um endereço IP anormal, por exemplo. Outro exemplo de aplicação é usá-lo para identificar uma conta que está tentando criar recursos de computação a partir de um endereço IP incomum. Os modelos treinados do Insight IP podem ser hospedados em um endpoint para fazer previsões em tempo real ou usados para processar transformações em lote

SageMaker O AI IP Insights ingere dados históricos como pares (entidade, IPv4 endereço) e aprende os padrões de uso de IP de cada entidade. Quando consultado com um evento (entidade, IPv4 endereço), um modelo do SageMaker AI IP Insights retorna uma pontuação que infere o quão anômalo é o padrão do evento. Por exemplo, quando um usuário tenta fazer login de um endereço IP, se a pontuação do IP Insights for alta o suficiente, um servidor de login da web poderá optar por disparar um sistema de autenticação multifator. Em soluções mais avançadas, você pode inserir a pontuação do IP Insights em outro modelo de machine learning. Por exemplo, você pode combinar a pontuação do IP Insight com outros recursos para classificar as descobertas de outro sistema de segurança, como os da Amazon GuardDuty.

O algoritmo SageMaker AI IP Insights também pode aprender representações vetoriais de endereços IP, conhecidas como incorporações. Você pode usar incorporações codificadas por vetor como recursos em tarefas de descendentes de machine learning que usam as informações observadas nos endereços IP. Por exemplo, você pode usá-las em tarefas como medir semelhanças entre endereços IP em tarefas de agrupamento e visualização.

Tópicos

Interface de entrada/saída para o algoritmo IP Insights

Treinamento e validação

O algoritmo SageMaker AI IP Insights suporta canais de dados de treinamento e validação. Ele usa o canal de validação opcional para calcular uma pontuação area-under-curve (AUC) em uma estratégia de amostragem negativa predefinida. A métrica AUC valida o quão bem o modelo discrimina entre amostras positivas e negativas. Os tipos de conteúdo de dados de treinamento e validação precisam estar no formato text/csv. A primeira coluna dos dados CSV é uma string opaca que fornece um identificador exclusivo para a entidade. A segunda coluna é um IPv4 endereço em notação de ponto decimal. No momento, o IP Insights oferece suporte apenas para o modo de Arquivo. Para obter mais informações e alguns exemplos, consulte Formatos de dados de treinamento para IP Insights.

Inferência

Para inferência, o IP Insights é compatível com os tipos de conteúdo de dados text/csv, application/json e application/jsonlines. Para obter mais informações sobre os formatos de dados comuns para inferência fornecidos pela SageMaker IA, consulteFormatos de dados comuns para inferência. A inferência do IP Insights retorna a saída formatada como application/json ou application/jsonlines. Cada registro nos dados de saída contém o dot_product correspondente (ou pontuação de compatibilidade) para cada ponto de dados de entrada. Para obter mais informações e alguns exemplos, consulte Formatos de dados de inferência para IP Insights.

EC2 Recomendação de instância para o algoritmo IP Insights

O algoritmo SageMaker AI IP Insights pode ser executado em instâncias de GPU e CPU. Para trabalhos de treinamento, recomendamos o uso de instâncias de GPU. No entanto, para determinadas cargas de trabalho com grandes conjuntos de dados de treinamento, instâncias de CPU distribuídas podem reduzir os custos de treinamento. Para inferência, recomendamos o uso de instâncias de CPU. O IP Insights oferece suporte às famílias de GPU P2, P3, G4dn e G5.

Instâncias de GPU para o algoritmo IP Insights

O IP Insights oferece suporte a todos os disponíveis GPUs. Se você precisar acelerar o treinamento, recomendamos começar com uma única instância de GPU, como ml.p3.2xlarge, e depois mudar para um ambiente de várias GPUs, como ml.p3.8xlarge e ml.p3.16xlarge. Divida GPUs automaticamente os minilotes de dados de treinamento entre si. Se você mudar de uma única GPU para várias GPUs, ela mini_batch_size será dividida igualmente no número de GPUs usadas. Convém aumentar o valor de mini_batch_size para compensar isso.

Instâncias de CPU para o algoritmo IP Insights

O tipo de instância de CPU recomendado depende em grande parte da memória disponível da instância e do tamanho do modelo. O tamanho do modelo é determinado por dois hiperparâmetros: vector_dim e num_entity_vectors. O tamanho máximo do modelo com suporte é de 8 GB. A tabela a seguir lista os tipos de EC2 instância típicos que você implantaria com base nesses parâmetros de entrada para vários tamanhos de modelo. Na Tabela 1, o valor para vector_dim na primeira coluna varia de 32 a 2048, e os valores para num_entity_vectors na primeira linha variam de 10.000 a 50.000.000.

`vector_dim` \ `num_entity_vectors`.	10.000	50.000	100.000	500,000	1.000.000	5,000,000	10,000,000	50,000,000
`32`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`64`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.2xlarge`
`128`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`	`ml.m5.4xlarge`
`256`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`512`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.large`	`ml.m5.2xlarge`
`1024`	ml.m5.large	`ml.m5.large`	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.4xlarge`
`2048`	ml.m5.large	`ml.m5.large`	`ml.m5.xlarge`	`ml.m5.xlarge`

Os valores para os hiperparâmetros mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate também afetam a quantidade de memória necessária. Se esses valores forem grandes, talvez seja necessário usar um tipo de instância maior que o normal.

Blocos de anotações de amostra de IP Insights

Para ver um exemplo de caderno que mostra como treinar o algoritmo SageMaker AI IP Insights e realizar inferências com ele, consulte Uma introdução ao algoritmo SageMaker AIIP Insights. Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar o exemplo em SageMaker IA, consulte. Instâncias do Amazon SageMaker Notebook Depois de criar uma instância de notebook, escolha a guia Exemplos de SageMaker IA para ver uma lista de todos os exemplos de SageMaker IA. Para abrir um caderno, escolha a guia Uso e depois escolha Criar cópia.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Não supervisionados

Como funciona

Próximo tópico:

Como funciona

Tópico anterior:

Não supervisionados

Precisa de ajuda?

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie