Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Consigli per scegliere lo strumento giusto per la preparazione dei dati in SageMaker
La preparazione dei dati nell'apprendimento automatico si riferisce al processo di raccolta, preelaborazione e organizzazione dei dati grezzi per renderli adatti all'analisi e alla modellazione. Questo passaggio garantisce che i dati siano in un formato dal quale gli algoritmi di apprendimento automatico possano apprendere in modo efficace. Le attività di preparazione dei dati possono includere la gestione dei valori mancanti, la rimozione di valori anomali, il ridimensionamento delle funzionalità, la codifica delle variabili categoriche, la valutazione di potenziali pregiudizi e l'adozione di misure per mitigarli, la suddivisione dei dati in set di formazione e test, l'etichettatura e altre trasformazioni necessarie per ottimizzare la qualità e l'usabilità dei dati per le successive attività di apprendimento automatico.
Scegli una funzionalità
Esistono 3 casi d'uso principali per la preparazione dei dati con Amazon SageMaker. Scegli il caso d'uso in linea con i tuoi requisiti, quindi fai riferimento alla funzionalità consigliata corrispondente.
Casi d'uso
Di seguito sono riportati i casi d'uso principali per l'esecuzione della preparazione dei dati per il Machine Learning.
-
Caso d'uso 1: per coloro che preferiscono un'interfaccia visiva, SageMaker offre modi per esplorare, preparare e progettare funzionalità per la formazione dei modelli in un point-and-click ambiente.
-
Caso d'uso 2: per gli utenti abituati alla programmazione che desiderano maggiore flessibilità e controllo sulla preparazione dei dati, SageMaker integra strumenti nei suoi ambienti di codifica per l'esplorazione, le trasformazioni e l'ingegnerizzazione delle funzionalità.
-
Caso d'uso 3: per gli utenti focalizzati sulla preparazione scalabile dei dati, SageMaker offre funzionalità serverless che sfruttano l'ecosistema Hadoop/Spark per l'elaborazione distribuita di big data.
Funzionalità consigliate
La tabella seguente riporta le considerazioni e i compromessi chiave per le funzionalità relative a ciascun caso d'uso della preparazione dei dati per l'apprendimento automatico SageMaker . Per iniziare, identifica il caso d'uso che soddisfa i tuoi requisiti e accedi alla funzionalità consigliata. SageMaker
Caso d'uso 1 | Caso d'uso 2 | Caso d'uso 3 | |
---|---|---|---|
SageMaker caratteristica | Data Wrangler all'interno di Amazon Canvas SageMaker | SQLPrepara i dati con in Studio | Prepara i dati utilizzando EMR Serverlessapplicazioni in Studio |
Descrizione | SageMaker Canvas è un ambiente visivo a basso codice per la creazione, l'addestramento e l'implementazione di modelli di apprendimento automatico in. SageMaker Il suo strumento Data Wrangler integrato consente agli utenti di combinare, trasformare e pulire i set di dati attraverso interazioni. point-and-click | L'SQLestensione di Studio consente agli utenti di connettersi ad Amazon Redshift, Snowflake, Athena e Amazon S3 per creare query ad hoc e visualizzare in anteprima i risultati nei SQL notebook. JupyterLab L'output di queste query può essere manipolato utilizzando Python e Pandas per ulteriori elaborazioni, visualizzazioni e trasformazioni in formati utilizzabili per lo sviluppo di modelli di machine learning. | L'integrazione tra EMR Serverless e Amazon SageMaker Studio fornisce un ambiente serverless scalabile per la preparazione di dati su larga scala per l'apprendimento automatico utilizzando framework open source come Apache Spark e Apache Hive. Gli utenti possono accedere direttamente alle applicazioni e ai dati EMR Serverless dai propri notebook Studio per eseguire le attività di preparazione dei dati su larga scala. |
Ottimizzato per | Utilizzando un'interfaccia visiva in cui è possibile: Ottimizzato per attività di dati tabulari come la gestione dei valori mancanti, la codifica di variabili categoriali e l'applicazione di trasformazioni dei dati. |
Per gli utenti i cui dati risiedono in Amazon Redshift, Snowflake, Athena o Amazon S3 e desiderano combinare esperienze esplorative e SQL Python per l'analisi e la preparazione dei dati senza la necessità di imparare Spark. | Per gli utenti che preferiscono un'esperienza serverless con fornitura e terminazione automatiche delle risorse per scalare carichi di lavoro interattivi di breve durata o intermittenti che ruotano attorno ad Apache Spark, sfruttando al contempo le funzionalità di apprendimento automatico di Apache. SageMaker |
Considerazioni |
|
|
|
Ambiente consigliato | Guida introduttiva all'utilizzo di SageMaker Canvas | Avvia Studio | Avvia Studio |
Opzioni aggiuntive
SageMaker offre le seguenti opzioni aggiuntive per la preparazione dei dati da utilizzare nei modelli di apprendimento automatico.
-
Preparazione dei dati con Amazon EMR: per attività di elaborazione dati di lunga durata, con uso intensivo di calcolo e su larga scala, prendi in considerazione l'utilizzo dei cluster Amazon EMR di Studio. SageMaker EMRI cluster Amazon sono progettati per gestire una parallelizzazione massiccia e possono scalare fino a centinaia o migliaia di nodi, il che li rende adatti per carichi di lavoro di big data che richiedono framework come Apache Spark, Hadoop, Hive e Presto. L'integrazione di Amazon EMR con SageMaker Studio ti consente di sfruttare la scalabilità e le prestazioni di AmazonEMR, mantenendo la sperimentazione completa del machine learning, la formazione e l'implementazione dei modelli, centralizzati e gestiti all'interno dell'ambiente Studio. SageMaker
-
Prepara i dati utilizzando le sessioni interattive Glue: puoi utilizzare il motore serverless basato su Apache Spark proveniente da sessioni AWS Glue interattive per aggregare, trasformare e preparare dati da più fonti in Studio. SageMaker
-
Identifica le distorsioni nei dati di formazione utilizzando i processi di elaborazione di Amazon SageMaker Clarify: SageMaker Clarify analizza i dati e rileva potenziali distorsioni su più aspetti. Ad esempio, puoi utilizzare Clarify API in Studio per rilevare se i dati di allenamento contengono rappresentazioni squilibrate o pregiudizi di etichettatura tra gruppi come sesso, razza o età. Clarify può aiutarvi a identificare questi pregiudizi prima di addestrare un modello per evitare di propagarli nelle previsioni del modello.
-
Crea, archivia e condividi funzionalità: Amazon SageMaker Feature Store ottimizza la scoperta e il riutilizzo di funzionalità curate per l'apprendimento automatico. Fornisce un archivio centralizzato per archiviare i dati delle funzionalità che possono essere cercati e recuperati per l'addestramento dei modelli. L'archiviazione delle funzionalità in un formato standardizzato consente il riutilizzo tra progetti di machine learning. Il Feature Store gestisce l'intero ciclo di vita delle funzionalità, tra cui il tracciamento della discendenza, le statistiche e gli audit trail per la progettazione di funzionalità di apprendimento automatico scalabili e gestite.
-
Etichetta i dati con a human-in-the-loop: Puoi utilizzare SageMaker Ground Truth per gestire i flussi di lavoro di etichettatura dei dati dei tuoi set di dati di allenamento.
-
Usa SageMaker Processing API: dopo aver eseguito l'analisi esplorativa dei dati e creato le fasi di trasformazione dei dati, puoi rendere produttivo il codice di trasformazione utilizzando SageMakerProcessing job e automatizzare il flusso di lavoro di preparazione utilizzando Model Building Pipelines. SageMaker