Consigli per scegliere il giusto strumento di preparazione dei dati nell' SageMaker intelligenza artificiale

La preparazione dei dati nel machine learning si riferisce al processo di raccolta, pre-elaborazione e organizzazione dei dati non elaborati per renderli adatti all’analisi e alla modellazione. Questa fase garantisce che i dati siano elaborati in un formato ottimale, che consente agli algoritmi di machine learning di apprendere in modo efficace. Le attività di preparazione dei dati possono includere la gestione dei valori mancanti, la rimozione di valori anomali, il dimensionamento delle funzionalità, la codifica di variabili categoriali, la valutazione di potenziali bias e l’adozione di misure per mitigarli, la suddivisione dei dati in set di addestramento e test, l’etichettatura e altre trasformazioni necessarie per ottimizzare la qualità e l’usabilità dei dati per le successive attività di machine learning.

Scelta di una funzionalità

Esistono 3 casi d'uso principali per la preparazione dei dati con Amazon SageMaker AI. Scegli il caso d’uso più in linea con i tuoi requisiti, quindi fai riferimento alla funzionalità consigliata corrispondente.

Casi d’uso

Di seguito sono riportati i casi d’uso primari relativi alla preparazione dei dati per il machine learning.

Caso d'uso 1: per coloro che preferiscono un'interfaccia visiva, l' SageMaker intelligenza artificiale offre modi per esplorare, preparare e progettare funzionalità per la formazione dei modelli in un ambiente punta e clicca.
Caso d'uso 2: per gli utenti abituati alla programmazione che desiderano maggiore flessibilità e controllo sulla preparazione dei dati, l' SageMaker IA integra strumenti nei suoi ambienti di codifica per l'esplorazione, le trasformazioni e l'ingegneria delle funzionalità.
Caso d'uso 3: per gli utenti focalizzati sulla preparazione scalabile dei dati, l' SageMaker intelligenza artificiale offre funzionalità serverless che sfruttano l'ecosistema per l' Hadoop/Sparkelaborazione distribuita di big data.

Funzionalità consigliate

La tabella seguente illustra le considerazioni e i compromessi chiave per le funzionalità di SageMaker intelligenza artificiale relative a ciascun caso d'uso della preparazione dei dati per l'apprendimento automatico. Per iniziare, identifica il caso d'uso che soddisfa i tuoi requisiti e accedi alla funzionalità di intelligenza artificiale consigliata. SageMaker

Descrittore	Caso d'uso 1	Caso d'uso 2	Caso d'uso 3
SageMaker Funzionalità AI	Data Wrangler in Amazon Canvas SageMaker	Preparazione dei dati con SQL in Studio	Preparazione dei dati con EMR Serverless applicazioni in Studio
Description	SageMaker Canvas è un ambiente visivo a basso codice per la creazione, l'addestramento e l'implementazione di modelli di apprendimento automatico nell'intelligenza artificiale. SageMaker Il suo strumento integrato, Data Wrangler, consente agli utenti di combinare, trasformare e pulire i set di dati attraverso interazioni point-and-click.	L'estensione SQL di Studio consente agli utenti di connettersi ad Amazon Redshift, Snowflake, Athena e Amazon S3 per creare query SQL ad hoc e visualizzare in anteprima i risultati nei notebook. JupyterLab L’output di queste query può essere modificato utilizzando Python e Pandas per ulteriori elaborazioni, visualizzazioni e trasformazioni in formati utilizzabili per lo sviluppo di modelli di machine learning.	L'integrazione tra EMR Serverless e Amazon SageMaker Studio fornisce un ambiente serverless scalabile per la preparazione di dati su larga scala per l'apprendimento automatico utilizzando framework open source come Apache Spark e Apache Hive. Gli utenti possono accedere direttamente alle applicazioni e ai dati EMR Serverless dai propri notebook Studio per eseguire le attività di preparazione dei dati su larga scala.
Ottimizzazione per	L’utilizzo di un’interfaccia visiva in cui è possibile: Creare pipeline di preparazione dei dati Eseguire analisi dei dati Trasformare i dati utilizzando trasformazioni integrate AI-poweredUsa istruzioni in linguaggio naturale di ultima generazione per le trasformazioni dei dati Ottimizzato per attività di dati tabulari come la gestione dei valori mancanti, la codifica di variabili categoriali e l’applicazione di trasformazioni dei dati.	Per utenti i cui dati risiedono in Amazon Redshift, Snowflake, Athena o Amazon S3 e che desiderano combinare sistemi SQL esplorativi e Python per l’analisi e la preparazione dei dati senza dover imparare Spark.	Per gli utenti che preferiscono un'esperienza serverless con fornitura e terminazione automatiche delle risorse per scalare carichi di lavoro interattivi di breve durata o intermittenti che ruotano attorno ad Apache Spark, sfruttando al contempo le funzionalità di apprendimento automatico dell'IA. SageMaker
Considerazioni	Potrebbe non essere la scelta ottimale se il tuo team ha già esperienza con Python, Spark o altri linguaggi. Potrebbe non essere la soluzione migliore se hai bisogno della massima flessibilità per personalizzare le trasformazioni per aggiungere logiche di business complesse o se necessiti del controllo completo sull’ambiente di elaborazione dei dati.	Questa funzionalità è progettata solo per dati strutturati che risiedono in Amazon Redshift, Snowflake, Athena o Amazon S3. Se la dimensione dei risultati delle query supera la memoria dell'istanza SageMaker AI, il seguente taccuino può aiutarti a iniziare a usare Athena per preparare i dati per l'ingestione tramite un algoritmo di intelligenza artificiale. SageMaker	La curva di apprendimento per gli utenti che non hanno familiarità con le applicazioni e gli Spark-based strumenti EMR Serverless può essere impegnativa. Questa funzionalità è più adatta per attività interattive di preparazione dei dati e potrebbe non essere altrettanto efficiente quanto i cluster Amazon EMR per i requisiti di elaborazione dei dati su larga scala, di lunga durata o complessi che richiedono enormi quantità di dati, un’ampia integrazione con altri servizi, applicazioni personalizzate o diversi framework distribuiti di elaborazione dei dati oltre ad Apache Spark. Sebbene il calcolo serverless possa essere conveniente per attività di breve durata, è essenziale monitorare e gestire i costi con attenzione, soprattutto per carichi di lavoro di lunga durata o che richiedono molte risorse.
Ambiente consigliato	Guida introduttiva all'utilizzo di Canvas SageMaker	Avvia Studio	Avvia Studio

Opzioni aggiuntive

SageMaker L'intelligenza artificiale offre le seguenti opzioni aggiuntive per la preparazione dei dati da utilizzare nei modelli di apprendimento automatico.

Preparazione dei dati con Amazon EMR: per attività di elaborazione dati di lunga durata, con uso intensivo di calcolo e su larga scala, prendi in considerazione l'utilizzo dei cluster Amazon EMR di Studio. SageMaker I cluster Amazon EMR sono progettati per gestire parallelizzazioni di enormi dimensioni e possono essere scalati fino a centinaia o migliaia di nodi, il che li rende adatti per carichi di lavoro di big data che richiedono framework come Apache Spark, Hadoop, Hive e Presto. L'integrazione di Amazon EMR con SageMaker Studio ti consente di sfruttare la scalabilità e le prestazioni di Amazon EMR, mantenendo la sperimentazione completa del machine learning, la formazione e l'implementazione dei modelli, centralizzati e gestiti all'interno dell'ambiente Studio. SageMaker
Prepara i dati utilizzando le sessioni interattive Glue: puoi utilizzare il motore Spark-based serverless Apache dalle sessioni AWS Glue interattive per aggregare, trasformare e preparare dati da più fonti in Studio. SageMaker
Identifica le distorsioni nei dati di formazione utilizzando i processi di elaborazione di Amazon SageMaker Clarify: SageMaker Clarify analizza i dati e rileva potenziali distorsioni su più aspetti. Ad esempio, puoi utilizzare l’API Clarify in Studio per rilevare se i dati di addestramento contengono rappresentazioni squilibrate o bias di etichettatura in gruppi come sesso, etnia o età. Clarify può aiutarti a identificare questi bias prima di avviare l’addestramento di un modello per evitare che vengano propagati nelle previsioni del modello.
Crea, archivia e condividi funzionalità: Amazon SageMaker Feature Store ottimizza la scoperta e il riutilizzo di funzionalità curate per l'apprendimento automatico. Fornisce un repository centralizzato per archiviare i dati delle funzionalità che possono essere ricercati e recuperati per l’addestramento dei modelli. L’archiviazione delle funzionalità in un formato standardizzato consente il riutilizzo in più progetti di ML. L’archivio delle caratteristiche gestisce l’intero ciclo di vita delle funzionalità, tra cui il monitoraggio del lineage, le statistiche e gli audit trail per un’ingegneria delle caratteristiche di machine learning scalabile e governata.
Etichetta i dati con un approccio human-in-the-loop: puoi utilizzare SageMaker Ground Truth per gestire i flussi di lavoro di etichettatura dei dati dei tuoi set di dati di formazione.
Usa SageMaker Processing API : dopo aver eseguito l'analisi esplorativa dei dati e creato le fasi di trasformazione dei dati, puoi produrre il codice di trasformazione utilizzando i processi di elaborazione SageMaker AI e automatizzare il flusso di lavoro di preparazione utilizzando Model Building Pipelines. SageMaker

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Riferimenti API

Preparazione dei dati con SQL in Studio