Riordino dei dati

La funzionalità di riordino dei dati consente di creare un'origine dati che si basa solo su una parte dei dati di input a cui punta. Ad esempio, quando crei un modello ML utilizzando la procedura guidata Crea modello ML nella console Amazon ML e scegli l'opzione di valutazione predefinita, Amazon ML riserva automaticamente il 30% dei tuoi dati per la valutazione del modello ML e utilizza l'altro 70% per la formazione. Questa funzionalità è abilitata dalla funzionalità Data Rearrangement di Amazon ML.

Se utilizzi l'API Amazon ML per creare origini dati, puoi specificare su quale parte dei dati di input si baserà una nuova origine dati. Puoi farlo passando le istruzioni nel DataRearrangement parametro a, o. CreateDataSourceFromS3 CreateDataSourceFromRedshift CreateDataSourceFromRDS APIs Il contenuto della stringa è una DataRearrangement stringa JSON contenente le posizioni di inizio e fine dei dati, espressi come percentuali, un flag di complemento e una strategia di suddivisione. Ad esempio, la DataRearrangement stringa seguente specifica che il primo 70% dei dati verrà utilizzato per creare l'origine dati:


{
    "splitting": {
        "percentBegin": 0,
        "percentEnd": 70,
        "complement": false,
        "strategy": "sequential"
    }
}

DataRearrangement Parametri

Per modificare il modo in cui Amazon ML crea un'origine dati, utilizza i seguenti parametri.

PercentBegin (Facoltativo)

Utilizzare percentBegin per indicare dove iniziano i dati per l'origine dati. Se non includi percentBegin epercentEnd, Amazon ML include tutti i dati durante la creazione dell'origine dati.

I valori validi vanno da 0 a 100, inclusi.

PercentEnd (Facoltativo)

Utilizzare percentEnd per indicare dove finiscono i dati per l'origine dati. Se non includi percentBegin epercentEnd, Amazon ML include tutti i dati durante la creazione dell'origine dati.

I valori validi vanno da 0 a 100, inclusi.

Complement (facoltativo)

Il complement parametro indica ad Amazon ML di utilizzare i dati non inclusi nell'intervallo di percentBegin per percentEnd creare un'origine dati. Il parametro complement è utile se occorre creare origini dati complementari per l'addestramento e la valutazione. Per creare un'origine dati complementari, utilizzare gli stessi valori per percentBegin e percentEnd, insieme al parametro complement.

Ad esempio, le due origini dati seguenti non condividono dati e possono essere utilizzate per addestrare e valutare un modello. La prima origine dati ha il 25% dei dati, mentre la seconda ha il 75% dei dati.

Origine dati per la valutazione:


{
    "splitting":{
        "percentBegin":0, 
        "percentEnd":25
    }
}

Origine dati per l'addestramento:


{
    "splitting":{
        "percentBegin":0, 
        "percentEnd":25, 
        "complement":"true"
    }
}

I valori validi sono true e false.

Strategy (facoltativo)

Per modificare il modo in cui Amazon ML divide i dati per un'origine dati, utilizza il parametro. strategy

Il valore predefinito per il strategy parametro èsequential, il che significa che Amazon ML acquisisce tutti i record di dati compresi tra i percentEnd parametri percentBegin e per l'origine dati, nell'ordine in cui i record appaiono nei dati di input

Le due righe seguenti DataRearrangement sono esempi di ordinamento sequenziale di origini dati di addestramento e valutazione:

Origine dati per la valutazione: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}

Origine dati per l'addestramento: {"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}

Per creare un'origine dati da una selezione casuale di dati, impostare il parametro strategy su random e fornire una stringa che viene utilizzata come valore di origine per la suddivisione casuale dei dati (ad esempio, è possibile utilizzare il percorso di S3 per i dati come stringa di origine casuale). Se scegli la strategia di suddivisione casuale, Amazon ML assegna a ogni riga di dati un numero pseudo-casuale, quindi seleziona le righe a cui è assegnato un numero compreso tra e. percentBegin percentEnd I numeri pseudocasuali sono assegnati utilizzando l'offset di byte come seed; perciò, se si modificano i risultati dei dati, si ottiene una divisione diversa. Qualsiasi ordine esistente viene mantenuto. La strategia di divisione casuale garantisce che le variabili dei dati di addestramento e valutazione siano distribuite in modo analogo. Si tratta di una funzione utile, ad esempio, nel caso in cui i dati di input possano avere un ordinamento implicito; altrimenti, ciò porterebbe a origini dati di addestramento e valutazione contenenti record di dati non simili.

Le due righe seguenti DataRearrangement sono esempi di ordinamento non sequenziale di origini dati di addestramento e valutazione:

Origine dati per la valutazione:


{
    "splitting":{
        "percentBegin":70, 
        "percentEnd":100, 
        "strategy":"random", 
        "strategyParams": {
            "randomSeed":"RANDOMSEED"
        }
    }
}

Origine dati per l'addestramento:


{
    "splitting":{
        "percentBegin":70, 
        "percentEnd":100, 
        "strategy":"random", 
        "strategyParams": {
            "randomSeed":"RANDOMSEED"
        }
        "complement":"true"
    }
}

I valori validi sono sequential e random.

(Facoltativo) Strategia: RandomSeed

Amazon ML utilizza RandomSeed per suddividere i dati. Il seed di default per l'API è una stringa vuota. Per specificare un seed per la strategia di divisione casuale, effettuare una passata su una stringa. Per ulteriori informazioni sui seed casuali, consulta Divisione casuale dei dati la Amazon Machine Learning Developer Guide.

Per un codice di esempio che dimostra come utilizzare la convalida incrociata con Amazon ML, consulta Github Machine Learning Samples.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Riferimento per le trasformazioni di dati

Valutazione dei modelli ML