As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O Amazon SageMaker AI IP Insights é um algoritmo de aprendizado não supervisionado que aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas. Você pode usá-lo para identificar um usuário que tenta fazer login em um serviço da web a partir de um endereço IP anormal, por exemplo. Outro exemplo de aplicação é usá-lo para identificar uma conta que está tentando criar recursos de computação a partir de um endereço IP incomum. Os modelos treinados do Insight IP podem ser hospedados em um endpoint para fazer previsões em tempo real ou usados para processar transformações em lote
SageMaker O AI IP Insights ingere dados históricos como pares (entidade, IPv4 endereço) e aprende os padrões de uso de IP de cada entidade. Quando consultado com um evento (entidade, IPv4 endereço), um modelo do SageMaker AI IP Insights retorna uma pontuação que infere o quão anômalo é o padrão do evento. Por exemplo, quando um usuário tenta fazer login de um endereço IP, se a pontuação do IP Insights for alta o suficiente, um servidor de login da web poderá optar por disparar um sistema de autenticação multifator. Em soluções mais avançadas, você pode inserir a pontuação do IP Insights em outro modelo de machine learning. Por exemplo, você pode combinar a pontuação do IP Insight com outros recursos para classificar as descobertas de outro sistema de segurança, como os da Amazon GuardDuty.
O algoritmo SageMaker AI IP Insights também pode aprender representações vetoriais de endereços IP, conhecidas como incorporações. Você pode usar incorporações codificadas por vetor como recursos em tarefas de descendentes de machine learning que usam as informações observadas nos endereços IP. Por exemplo, você pode usá-las em tarefas como medir semelhanças entre endereços IP em tarefas de agrupamento e visualização.
Tópicos
Interface de entrada/saída para o algoritmo IP Insights
Treinamento e validação
O algoritmo SageMaker AI IP Insights suporta canais de dados de treinamento e validação. Ele usa o canal de validação opcional para calcular uma pontuação area-under-curve (AUC) em uma estratégia de amostragem negativa predefinida. A métrica AUC valida o quão bem o modelo discrimina entre amostras positivas e negativas. Os tipos de conteúdo de dados de treinamento e validação precisam estar no formato text/csv
. A primeira coluna dos dados CSV é uma string opaca que fornece um identificador exclusivo para a entidade. A segunda coluna é um IPv4 endereço em notação de ponto decimal. No momento, o IP Insights oferece suporte apenas para o modo de Arquivo. Para obter mais informações e alguns exemplos, consulte Formatos de dados de treinamento para IP Insights.
Inferência
Para inferência, o IP Insights é compatível com os tipos de conteúdo de dados text/csv
, application/json
e application/jsonlines
. Para obter mais informações sobre os formatos de dados comuns para inferência fornecidos pela SageMaker IA, consulteFormatos de dados comuns para inferência. A inferência do IP Insights retorna a saída formatada como application/json
ou application/jsonlines
. Cada registro nos dados de saída contém o dot_product
correspondente (ou pontuação de compatibilidade) para cada ponto de dados de entrada. Para obter mais informações e alguns exemplos, consulte Formatos de dados de inferência para IP Insights.
EC2 Recomendação de instância para o algoritmo IP Insights
O algoritmo SageMaker AI IP Insights pode ser executado em instâncias de GPU e CPU. Para trabalhos de treinamento, recomendamos o uso de instâncias de GPU. No entanto, para determinadas cargas de trabalho com grandes conjuntos de dados de treinamento, instâncias de CPU distribuídas podem reduzir os custos de treinamento. Para inferência, recomendamos o uso de instâncias de CPU. O IP Insights oferece suporte às famílias de GPU P2, P3, G4dn e G5.
Instâncias de GPU para o algoritmo IP Insights
O IP Insights oferece suporte a todos os disponíveis GPUs. Se você precisar acelerar o treinamento, recomendamos começar com uma única instância de GPU, como ml.p3.2xlarge, e depois mudar para um ambiente de várias GPUs, como ml.p3.8xlarge e ml.p3.16xlarge. Divida GPUs automaticamente os minilotes de dados de treinamento entre si. Se você mudar de uma única GPU para várias GPUs, ela mini_batch_size
será dividida igualmente no número de GPUs usadas. Convém aumentar o valor de mini_batch_size
para compensar isso.
Instâncias de CPU para o algoritmo IP Insights
O tipo de instância de CPU recomendado depende em grande parte da memória disponível da instância e do tamanho do modelo. O tamanho do modelo é determinado por dois hiperparâmetros: vector_dim
e num_entity_vectors
. O tamanho máximo do modelo com suporte é de 8 GB. A tabela a seguir lista os tipos de EC2 instância típicos que você implantaria com base nesses parâmetros de entrada para vários tamanhos de modelo. Na Tabela 1, o valor para vector_dim
na primeira coluna varia de 32 a 2048, e os valores para num_entity_vectors
na primeira linha variam de 10.000 a 50.000.000.
vector_dim \
num_entity_vectors . |
10.000 | 50.000 | 100.000 | 500,000 | 1.000.000 | 5,000,000 | 10,000,000 | 50,000,000 |
---|---|---|---|---|---|---|---|---|
32 |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.2xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.xlarge |
Os valores para os hiperparâmetros mini_batch_size
, num_ip_encoder_layers
, random_negative_sampling_rate
e shuffled_negative_sampling_rate
também afetam a quantidade de memória necessária. Se esses valores forem grandes, talvez seja necessário usar um tipo de instância maior que o normal.
Blocos de anotações de amostra de IP Insights
Para ver um exemplo de caderno que mostra como treinar o algoritmo SageMaker AI IP Insights e realizar inferências com ele, consulte Uma introdução ao algoritmo SageMaker AIIP Insights