Algoritmo Random Cut Forest (RCF) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Algoritmo Random Cut Forest (RCF)

Amazon SageMaker Random Cut Forest (RCF) è un algoritmo non supervisionato per il rilevamento di punti dati anomali all'interno di un set di dati. Queste sono osservazioni che divergono da dati altrimenti ben strutturati o con motivi. Possono manifestarsi anomalie come picchi non previsti in dati delle serie temporali, interruzioni nelle periodicità o punti dati non classificabili. Sono facili da descrivere in quanto, se visualizzate in un tracciato, sono spesso facilmente distinguibili dai dati "normali". L'inclusione di queste anomalie in un set dati può aumentare drasticamente la complessità di un'attività di machine learning, poiché i dati "normali" spesso possono essere descritti con un modello semplice.

A ogni punto dati, associa un punteggio di anomaliaRCF. Valori bassi indicano che il punto dati è considerato "normale". Valori elevati indicano la presenza di un'anomalia nei dati. Le definizioni di "basso" e di "elevato" dipendono dall'applicazione, ma è pratica comune ritenere che i punteggi oltre tre deviazioni standard dal punteggio medio siano considerati anomali.

Sebbene esistano molte applicazioni degli algoritmi di rilevamento delle anomalie ai dati di serie temporali unidimensionali, come l'analisi del volume del traffico o il rilevamento dei picchi di volume sonoro, RCF è progettato per funzionare con input di dimensioni arbitrarie. Amazon offre una buona SageMaker RCF scalabilità rispetto al numero di funzionalità, alla dimensione del set di dati e al numero di istanze.

Interfaccia di input/output per l'algoritmo RCF

Amazon SageMaker Random Cut Forest supporta i canali train e test dati. Il canale di test facoltativo viene utilizzato per calcolare i parametri di accuratezza, precisione, richiamata e punteggio F1 sui dati etichettati. L’addestramento e il test dei tipi di contenuto di dati possono rilevare i formati application/x-recordio-protobuf e text/csv. Per il testing di dati, quando si usa il formato text/csv, il contenuto deve essere specificato come text/csv;label_size=1 dove la prima colonna di ogni riga rappresenta l'etichetta di anomalia: "1" per un punto dati anomalo e "0" per un punto dati normale. Puoi utilizzare la modalità File o la modalità Pipe per addestrare i RCF modelli su dati formattati come recordIO-wrapped-protobuf o come CSV

Il canale di addestramento supporta solo S3DataDistributionType=ShardedByS3Key e il canale di test supporta solo S3DataDistributionType=FullyReplicated. L'esempio seguente specifica il tipo di distribuzione S3 per il canale train utilizzando Amazon Python SageMaker . SDK

Nota

Il sagemaker.inputs.s3_input metodo è stato rinominato sagemaker.inputs.TrainingInput in SageMaker SDKPython v2.

import sagemaker # specify Random Cut Forest training job information and hyperparameters rcf = sagemaker.estimator.Estimator(...) # explicitly specify "ShardedByS3Key" distribution type train_data = sagemaker.inputs.TrainingInput( s3_data=s3_training_data_location, content_type='text/csv;label_size=0', distribution='ShardedByS3Key') # run the training job on input data stored in S3 rcf.fit({'train': train_data})

Per evitare errori comuni relativi ai ruoli di esecuzione, assicurati di disporre dei ruoli di esecuzione richiesti, AmazonSageMakerFullAccess e AmazonEC2ContainerRegistryFullAccess. Per evitare errori comuni relativi all'inesistenza dell'immagine o alle relative autorizzazioni, assicuratevi che ECR l'immagine non sia più grande dello spazio su disco allocato sull'istanza di training. Per evitare ciò, esegui il processo di addestramento su un'istanza con spazio su disco sufficiente. Inoltre, se l'ECRimmagine proviene dall'archivio Elastic Container Service (ECS) di un AWS account diverso e non imposti le autorizzazioni del repository per concedere l'accesso, verrà generato un errore. Consulta le autorizzazioni del ECR repository per ulteriori informazioni sull'impostazione di una dichiarazione sulla politica del repository.

Per ulteriori informazioni sulla personalizzazione degli attributi dell'origine dati S3, consulta S3DataSource. Infine, per trarre vantaggio dall’addestramento di più istanze, i dati di addestramento devono essere partizionati in almeno lo stesso numero di file delle istanze.

Per inferenza, RCF supporti application/x-recordio-protobuf text/csv e tipi di contenuto dei application/json dati di input. Per ulteriori informazioni, consulta la documentazione Parametri per algoritmi integrati. RCFrestituzioni di inferenza application/x-recordio-protobuf o output application/json formattato. Ogni record in questi dati di output contiene i punteggi di anomalia corrispondenti per ogni punto dati di input. Per ulteriori informazioni, consulta Formati di dati comuni -- Inferenza.

Per ulteriori informazioni sui formati di file di input e output, consulta RCFFormati di risposta per l'inferenza e i Notebook di esempio RCF.

Raccomandazioni sulle istanze per l'algoritmo RCF

Per l’addestramento, consigliamo le famiglie di istanze ml.m4, ml.c4 e ml.c5. Per l'inferenza, consigliamo l'uso di un tipo di istanza ml.c5.xl in particolare, per ottenere prestazioni ottimali nonché per ridurre al minimo il costo per ogni ora di utilizzo. Sebbene tecnicamente l'algoritmo possa essere eseguito su tipi di GPU istanze, non sfrutta l'GPUhardware.

Notebook di esempio RCF

Per un esempio di come addestrare un RCF modello ed eseguire inferenze con esso, consultate il taccuino An Introduction to SageMaker Random Cut Forests. Per istruzioni su come creare e accedere alle istanze del notebook Jupyter che è possibile utilizzare per eseguire l'esempio, vedere. SageMaker Istanze Amazon SageMaker Notebook Dopo aver creato un'istanza di notebook e averla aperta, seleziona la scheda SageMaker Esempi per visualizzare un elenco di tutti gli esempi. SageMaker Per aprire un notebook, fai clic sulla relativa scheda Use (Utilizza) e seleziona Create copy (Crea copia).

Per un post sul blog sull'uso dell'RCFalgoritmo, consulta Utilizzare l'algoritmo integrato Amazon SageMaker Random Cut Forest per il rilevamento delle anomalie.