IP Insights - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

IP Insights

Amazon SageMaker IP Insights è un algoritmo di apprendimento senza supervisione che apprende i modelli di utilizzo degli indirizzi IPv4. È concepito per acquisire associazioni tra indirizzi IPv4 e varie entità, come ID utente o numeri di account. Puoi ad esempio utilizzarlo per identificare un utente che tenta di accedere a un servizio Web da un indirizzo IP anomalo oppure puoi usarlo per identificare un account che sta tentando di creare risorse di calcolo da un indirizzo IP insolito. I modelli IP Insight possono essere ospitati in un endpoint per effettuare previsioni in tempo reale o essere utilizzati per l'elaborazione di trasformazioni in batch.

SageMaker IP Insights acquisisce i dati storici come coppie (entità, indirizzo IPv4) e apprende i modelli di utilizzo dell'IP di ciascuna entità. Quando viene interrogato con un evento (entità, indirizzo IPv4), un modello SageMaker IP Insights restituisce un punteggio che deduce l'anomalia del pattern dell'evento. Ad esempio, quando un utente tenta di accedere da un indirizzo IP, se il punteggio di IP Insights è sufficientemente alto, un server di accesso Web può decidere di attivare un sistema di autenticazione a più fattori. Nelle soluzioni più avanzate, puoi includere il punteggio di IP Insights in un altro modello di Machine Learning. Ad esempio, puoi combinare il punteggio IP Insight con altre funzionalità per classificare i risultati di un altro sistema di sicurezza, come quelli di Amazon GuardDuty.

L'algoritmo SageMaker IP Insights può anche apprendere le rappresentazioni vettoriali degli indirizzi IP, note come incorporamenti. Puoi utilizzare gli incorporamenti con codifica vettoriale come caratteristiche nelle attività di Machine Learning downstream che utilizzano le informazioni osservate negli indirizzi IP. Ad esempio, è possibile utilizzarli in attività quali la valutazione delle somiglianze tra gli indirizzi IP nelle attività di visualizzazione e cluster.

Interfaccia di input/output per l'algoritmo IP Insights

Addestramento e convalida

L'algoritmo SageMaker IP Insights supporta i canali di dati di addestramento e convalida. Utilizza il canale di convalida opzionale per calcolare un punteggio area-under-curve (AUC) su una strategia di campionamento negativo predefinita. Il parametro AUC convalida il modo in cui il modello distingue gli esempi positivi e negativi. I tipi di contenuto dei dati di addestramento e convalida devono essere nel formato text/csv. La prima colonna dei dati CSV è una stringa opaca che fornisce un identificatore univoco per l'entità. La seconda colonna è un indirizzo IPv4 in notazione con separatore decimale. IP Insights attualmente supporta solo la modalità File. Per maggiori informazioni ed esempi, consulta Formati di dati di addestramento Insights IP.

Inferenza

Per inferenza, l'algoritmo IP Insights supporta i tipi di contenuti di dati text/csv, application/json e application/jsonlines. Per ulteriori informazioni sui formati di dati comuni per l'inferenza forniti da, vedere. SageMaker Formati di dati comuni per l'inferenza L'inferenza di IP Insights restituisce l'output formattato come application/json o application/jsonlines. Ogni record nei dati di output contiene il dot_product (punteggio di compatibilità) corrispondente per ogni punto di dati di input. Per maggiori informazioni ed esempi, consulta Formati di dati di inferenza di IP Insights.

Raccomandazione istanza EC2 per l'algoritmo IP Insights

L'algoritmo SageMaker IP Insights può essere eseguito sia su istanze GPU che CPU. Per i processi di addestramento, consigliamo di utilizzare le istanze GPU. Tuttavia, per determinati carichi di lavoro con set di dati di addestramento di grandi dimensioni, le istanze CPU distribuite potrebbero ridurre i costi di addestramento. Per l'inferenza, consigliamo di utilizzare le istanze CPU. IP Insights supporta le famiglie di GPU P2, P3, G4dn e G5.

Istanze GPU per l'algoritmo IP Insights

IP Insights supporta tutte le GPU disponibili. Se è necessario velocizzare l’addestramento, consigliamo di iniziare con una singola istanza GPU, ad esempio ml.p3.2xlarge, e quindi di passare a un ambiente con più GPU, come ml.p3.8xlarge e ml.p3.16xlarge. Le diverse GPU si dividono automaticamente i mini batch dei dati di addestramento. Se passi da una GPU a più GPU, il mini_batch_size viene diviso equamente tra il numero di GPU utilizzate. Puoi aumentare il valore del mini_batch_size per compensare.

Istanze CPU per l'algoritmo IP Insights

Il tipo di istanza CPU che consigliamo dipende in gran parte dalla memoria disponibile dell'istanza e dalla dimensione del modello. La dimensione del modello è determinata da due iperparametri: vector_dim e num_entity_vectors. La dimensione massima del modello supportata è 8 GB. Nella tabella seguente sono elencati tipi generici di istanze EC2 che verranno distribuiti in base a questi parametri di input per varie dimensioni del modello. Nella tabella 1, il valore per vector_dim nell'intervallo della prima colonna compreso tra 32 e 2048 e i valori per num_entity_vectors nell'intervallo della prima riga compreso tra 10.000 e 50.000.000.

vector_dim \ num_entity_vectors. 10.000 50.000 100.000 500.000 1.000.000 5.000.000 10.000.000 50.000.000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

I valori degli iperparametri mini_batch_size, num_ip_encoder_layers, random_negative_sampling_rate e shuffled_negative_sampling_rate influisce anche sulla quantità di memoria richiesta. Se questi valori sono elevati, potrebbe essere necessario utilizzare un tipo di istanza più grande del normale.

Notebook di esempio di IP Insights

Per un taccuino di esempio che mostra come addestrare l'algoritmo SageMaker IP Insights ed eseguire inferenze con esso, vedi An Introduction to the SageMaker IP Insights Algorithm. Per istruzioni su come creare e accedere alle istanze di notebook Jupyter che è possibile utilizzare per eseguire l'esempio, vedere. SageMaker Istanze Amazon SageMaker Notebook Dopo aver creato un'istanza di notebook, scegli la scheda SageMaker Esempi per visualizzare un elenco di tutti gli esempi. SageMaker Per aprire un notebook, seleziona la relativa scheda Utilizza e scegli Crea copia.