Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Consigli per scegliere lo strumento giusto per la preparazione dei dati nell' SageMaker IA

Modalità Focus
Consigli per scegliere lo strumento giusto per la preparazione dei dati nell' SageMaker IA - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

La preparazione dei dati nell'apprendimento automatico si riferisce al processo di raccolta, preelaborazione e organizzazione dei dati grezzi per renderli adatti all'analisi e alla modellazione. Questo passaggio garantisce che i dati siano in un formato dal quale gli algoritmi di apprendimento automatico possano apprendere in modo efficace. Le attività di preparazione dei dati possono includere la gestione dei valori mancanti, la rimozione di valori anomali, il ridimensionamento delle funzionalità, la codifica delle variabili categoriche, la valutazione di potenziali pregiudizi e l'adozione di misure per mitigarli, la suddivisione dei dati in set di formazione e test, l'etichettatura e altre trasformazioni necessarie per ottimizzare la qualità e l'usabilità dei dati per le successive attività di apprendimento automatico.

Scegli una funzionalità

Esistono 3 casi d'uso principali per la preparazione dei dati con Amazon SageMaker AI. Scegli il caso d'uso in linea con i tuoi requisiti, quindi fai riferimento alla funzionalità consigliata corrispondente.

Casi d'uso

Di seguito sono riportati i casi d'uso principali per l'esecuzione della preparazione dei dati per il Machine Learning.

  • Caso d'uso 1: per coloro che preferiscono un'interfaccia visiva, l' SageMaker intelligenza artificiale offre modi per esplorare, preparare e progettare funzionalità per la formazione dei modelli in un point-and-click ambiente.

  • Caso d'uso 2: per gli utenti che hanno dimestichezza con la programmazione e che desiderano maggiore flessibilità e controllo sulla preparazione dei dati, l' SageMaker IA integra strumenti nei suoi ambienti di codifica per l'esplorazione, le trasformazioni e l'ingegnerizzazione delle funzionalità.

  • Caso d'uso 3: per gli utenti focalizzati sulla preparazione scalabile dei dati, l' SageMaker intelligenza artificiale offre funzionalità serverless che sfruttano l'ecosistema Hadoop/Spark per l'elaborazione distribuita di big data.

La tabella seguente illustra le considerazioni e i compromessi chiave per le funzionalità di SageMaker intelligenza artificiale relative a ciascun caso d'uso della preparazione dei dati per l'apprendimento automatico. Per iniziare, identifica il caso d'uso che soddisfa i tuoi requisiti e accedi alla funzionalità di intelligenza artificiale consigliata. SageMaker

Descrittore Caso d'uso 1 Caso d'uso 2 Caso d'uso 3
SageMaker Funzionalità AI Data Wrangler all'interno di Amazon Canvas SageMaker Preparazione dei dati con SQL in Studio Preparare i dati utilizzando EMR Serverlessapplicazioni in Studio
Descrizione SageMaker Canvas è un ambiente visivo a basso codice per la creazione, l'addestramento e l'implementazione di modelli di apprendimento automatico nell' SageMaker intelligenza artificiale. Il suo strumento Data Wrangler integrato consente agli utenti di combinare, trasformare e pulire i set di dati attraverso interazioni. point-and-click L'estensione SQL di Studio consente agli utenti di connettersi ad Amazon Redshift, Snowflake, Athena e Amazon S3 per creare query SQL ad hoc e visualizzare in anteprima i risultati nei notebook. JupyterLab L'output di queste query può essere manipolato utilizzando Python e Pandas per ulteriori elaborazioni, visualizzazioni e trasformazioni in formati utilizzabili per lo sviluppo di modelli di machine learning. L'integrazione tra EMR Serverless e Amazon SageMaker Studio fornisce un ambiente serverless scalabile per la preparazione di dati su larga scala per l'apprendimento automatico utilizzando framework open source come Apache Spark e Apache Hive. Gli utenti possono accedere direttamente alle applicazioni e ai dati EMR Serverless dai propri notebook Studio per eseguire le attività di preparazione dei dati su larga scala.
Ottimizzato per Utilizzando un'interfaccia visiva in cui è possibile:

Ottimizzato per attività di dati tabulari come la gestione dei valori mancanti, la codifica di variabili categoriali e l'applicazione di trasformazioni dei dati.

Per gli utenti i cui dati risiedono in Amazon Redshift, Snowflake, Athena o Amazon S3 e desiderano combinare SQL esplorativo e Python per l'analisi e la preparazione dei dati senza la necessità di imparare Spark. Per gli utenti che preferiscono un'esperienza serverless con fornitura e terminazione automatiche delle risorse per scalare carichi di lavoro interattivi di breve durata o intermittenti che ruotano attorno ad Apache Spark, sfruttando al contempo le funzionalità di apprendimento automatico dell'IA. SageMaker
Considerazioni
  • Potrebbe non essere la scelta ottimale se il tuo team ha già esperienza in Python, Spark o altri linguaggi.

  • Potrebbe non essere la soluzione migliore se hai bisogno della massima flessibilità per personalizzare le trasformazioni per aggiungere logiche di business complesse o se richiedi il pieno controllo dell'ambiente di elaborazione dei dati.

  • Questa funzionalità è progettata solo per dati strutturati che risiedono in Amazon Redshift, Snowflake, Athena o Amazon S3.

  • Se la dimensione dei risultati delle query supera la memoria dell'istanza SageMaker AI, il seguente taccuino può aiutarti a iniziare a usare Athena per preparare i dati per l'ingestione tramite un algoritmo di intelligenza artificiale. SageMaker

  • La curva di apprendimento per gli utenti che non hanno familiarità con le applicazioni EMR Serverless e gli strumenti basati su Spark può essere impegnativa.

  • Questa funzionalità è più adatta per attività interattive di preparazione dei dati e potrebbe non essere efficiente quanto i cluster Amazon EMR per requisiti di elaborazione dati su larga scala, di lunga durata o complessi che richiedono enormi quantità di dati, ampia integrazione con altri servizi, applicazioni personalizzate o diversi framework di elaborazione dati distribuiti oltre ad Apache Spark.

  • Sebbene l'elaborazione serverless possa essere conveniente per attività di breve durata, è essenziale monitorare e gestire i costi con attenzione, soprattutto per carichi di lavoro a lunga durata o che richiedono molte risorse.

Ambiente consigliato Guida introduttiva all'utilizzo di SageMaker Canvas Avvia Studio Avvia Studio

Opzioni aggiuntive

SageMaker L'intelligenza artificiale offre le seguenti opzioni aggiuntive per preparare i dati da utilizzare nei modelli di apprendimento automatico.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.