Riordino dei dati - Amazon Machine Learning

Non aggiorniamo più il servizio Amazon Machine Learning né accettiamo nuovi utenti. Questa documentazione è disponibile per gli utenti esistenti, ma non la aggiorneremo più. Per ulteriori informazioni, consulta la paginaCos'è Amazon Machine Learning.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riordino dei dati

La funzionalità di riordino dei dati consente di creare un'origine dati che si basa solo su una parte dei dati di input a cui punta. Ad esempio, quando crei un modello ML utilizzando ilCrea un modello MLnella console Amazon ML e sceglie l'opzione di valutazione predefinita, Amazon ML riserva automaticamente il 30% dei dati per la valutazione del modello ML e utilizza il restante 70% per l'addestramento. Questa funzionalità viene attivata tramite la funzione Data Rearrangement (Riordino dei dati) di Amazon ML.

Se si sta utilizzando l'API Amazon ML per creare origini dati, è possibile specificare su quale parte dei dati di input sarà basata la nuova origine dati. A questo scopo, si trasferiscono le istruzioni nel parametro DataRearrangement alle API CreateDataSourceFromS3, CreateDataSourceFromRedshift o CreateDataSourceFromRDS. Il contenuto della stringa DataRearrangement è una stringa JSON contenente le ubicazioni di inizio e fine dei dati, espresse come percentuali, un flag complementare e una strategia di divisione. Ad esempio, la seguente stringa DataRearrangement specifica che il primo 70% dei dati verrà utilizzato per creare l'origine dati:

{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }

Parametri DataRearrangement

Per modificare il modo in cui Amazon ML crea un'origine dati, utilizzare i seguenti parametri.

PercentBegin (facoltativo)

Utilizzare percentBegin per indicare dove iniziano i dati per l'origine dati. Se non includipercentBeginepercentEnd, Amazon ML include tutti i dati quando crea l'origine dati.

I valori validi vanno da 0 a 100, inclusi.

PercentEnd (facoltativo)

Utilizzare percentEnd per indicare dove finiscono i dati per l'origine dati. Se non includipercentBeginepercentEnd, Amazon ML include tutti i dati quando crea l'origine dati.

I valori validi vanno da 0 a 100, inclusi.

Complement (facoltativo)

Lacomplementdice ad Amazon ML di utilizzare i dati che non sono inclusi nell'intervallo dipercentBeginapercentEndper creare un'origine dati. Il parametro complement è utile se occorre creare origini dati complementari per l'addestramento e la valutazione. Per creare un'origine dati complementari, utilizzare gli stessi valori per percentBegin e percentEnd, insieme al parametro complement.

Ad esempio, le due origini dati seguenti non condividono dati e possono essere utilizzate per addestrare e valutare un modello. La prima origine dati ha il 25% dei dati, mentre la seconda ha il 75% dei dati.

Origine dati per la valutazione:

{ "splitting":{ "percentBegin":0, "percentEnd":25 } }

Origine dati per l'addestramento:

{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }

I valori validi sono true e false.

Strategy (facoltativo)

Per modificare il modo in cui Amazon ML divide i dati per un'origine dati, utilizzare ilstrategyParametro .

Il valore predefinito per ilstrategyIl parametro èsequential, il che significa che Amazon ML prende tutti i record di dati trapercentBeginepercentEndparametri per l'origine dati, nell'ordine in cui i record appaiono nei dati di input

Le due righe seguenti DataRearrangement sono esempi di ordinamento sequenziale di origini dati di addestramento e valutazione:

Origine dati per la valutazione: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}

Origine dati per l'addestramento: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}

Per creare un'origine dati da una selezione casuale di dati, impostare il parametro strategy su random e fornire una stringa che viene utilizzata come valore di origine per la suddivisione casuale dei dati (ad esempio, è possibile utilizzare il percorso di S3 per i dati come stringa di origine casuale). Se si sceglie la strategia di divisione casuale, Amazon ML assegna a ogni riga di dati un numero pseudocasuale, quindi seleziona le righe che hanno un numero assegnato compreso trapercentBeginepercentEnd. I numeri pseudocasuali sono assegnati utilizzando l'offset di byte come seed; perciò, se si modificano i risultati dei dati, si ottiene una divisione diversa. Qualsiasi ordine esistente viene mantenuto. La strategia di divisione casuale garantisce che le variabili dei dati di addestramento e valutazione siano distribuite in modo analogo. Si tratta di una funzione utile, ad esempio, nel caso in cui i dati di input possano avere un ordinamento implicito; altrimenti, ciò porterebbe a origini dati di addestramento e valutazione contenenti record di dati non simili.

Le due righe seguenti DataRearrangement sono esempi di ordinamento non sequenziale di origini dati di addestramento e valutazione:

Origine dati per la valutazione:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }

Origine dati per l'addestramento:

{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }

I valori validi sono sequential e random.

Strategy:RandomSeed (facoltativo)

Amazon ML utilizza ilSeed casualeper dividere i dati. Il seed di default per l'API è una stringa vuota. Per specificare un seed per la strategia di divisione casuale, effettuare una passata su una stringa. Per ulteriori informazioni sulle origini casuali, consultaDivisione casuale dei datinellaGuida per sviluppatori Amazon Machine Learning.

Per il codice di esempio che dimostra come utilizzare la convalida incrociata con Amazon ML, visitare laEsempi di Machine Learning Github.