Importazione di set di dati - Amazon Forecast

Amazon Forecast non è più disponibile per i nuovi clienti. I clienti esistenti di Amazon Forecast possono continuare a utilizzare il servizio normalmente. Scopri di più»

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Importazione di set di dati

I set di dati contengono i dati utilizzati per eseguire il training di un predittore. Puoi creare uno o più set di dati Amazon Forecast e importarvi i dati di allenamento. Un gruppo di set di dati è una raccolta di set di dati complementari che descrivono in dettaglio una serie di parametri che cambiano nel corso di una serie di periodi di tempo. Dopo aver creato un gruppo di set di dati, utilizzarlo per eseguire il training di un predittore.

Ogni gruppo di set di dati può avere fino a tre set di dati, uno per ogni tipo di set di dati: serie temporali target, serie temporali correlate e metadati degli articoli.

Per creare e gestire set di dati e gruppi di set di dati Forecast, puoi utilizzare la console Forecast, AWS Command Line Interface (AWS CLI) o. AWS SDK

Ad esempio, i set di dati Forecast, consulta il GitHubrepository Amazon Forecast Sample.

Set di dati

Per creare e gestire i set di dati Forecast, puoi utilizzare ForecastAPIs, incluse le DescribeDataset operazioni CreateDataset and. Per un elenco completo di ForecastAPIs, vedereAPIRiferimento.

Durante la creazione di un set di dati occorre fornire informazioni, ad esempio le seguenti:

  • La frequenza/l'intervallo con cui hai registrato i dati. Ad esempio, potrebbe essere necessario aggregare e registrare vendite di articoli al dettaglio ogni settimana. Nell'esercizio Nozioni di base, si utilizza l'elettricità media utilizzata all'ora.

  • Il formato di previsione (il dominio) e il tipo di set di dati (all'interno del dominio). Un dominio del set di dati specifica il tipo di previsione che desideri eseguire, mentre un tipo di set di dati ti aiuta a organizzare i dati di allenamento in categorie compatibili con Forecast.

  • Schema del set di dati Uno schema mappa le intestazioni di colonna del set di dati. Ad esempio, durante il monitoraggio della domanda, potresti aver raccolto dati orari sulle vendite di un articolo in più store. In questo caso, lo schema definirebbe l'ordine, da sinistra a destra, in cui il timestamp, l'ubicazione e le vendite orarie appaiono nel file di dati di training. Gli schemi definiscono inoltre il tipo di dati di ogni colonna, ad esempio string o integer.

  • Informazioni sulla geolocalizzazione e sul fuso orario. L'attributo di geolocalizzazione è definito all'interno dello schema con il tipo di attributo. geolocation Le informazioni sul fuso orario vengono definite con l' CreateDatasetImportJoboperazione. È necessario includere sia i dati di geolocalizzazione che quelli relativi al fuso orario per abilitare l'indice meteorologico.

Ogni colonna del set di dati Forecast rappresenta una dimensione o una funzionalità di previsione. Le dimensioni di previsione descrivono gli aspetti dei dati che non cambiano nel tempo, come ad esempio store o location. Le caratteristiche di previsione includono tutti i parametri nei dati che variano nel tempo, ad esempio price o promotion. Alcune dimensioni, come timestamp o itemId, sono necessarie nei set di dati di serie temporali target e correlate.

Domini di set di dati e tipi di set di dati

Quando crei un set di dati Forecast, scegli un dominio e un tipo di set di dati. Forecast fornisce domini per diversi casi d'uso, come la previsione della domanda al dettaglio o del traffico web. Puoi anche creare un dominio personalizzato. Per un elenco completo dei domini Forecast, vedereDomini di set di dati e tipi di set di dati predefiniti.

All'interno di ogni dominio, gli utenti di Forecast possono specificare i seguenti tipi di set di dati:

  • Set di dati di serie temporali Target (obbligatorio): utilizza questo tipo di set di dati quando i dati di allenamento sono una serie temporale e include il campo per il quale desideri generare una previsione. Questo campo è denominato campo di destinazione.

  • Set di dati di serie temporali correlate (opzionale): scegli questo tipo di set di dati quando i dati di allenamento sono una serie temporale, ma non includono il campo di destinazione. Ad esempio, se stai effettuando una previsione della domanda di articoli, un set di dati di serie temporali correlate può avere price come campo, ma non demand.

  • Set di dati di metadati degli elementi (opzionale): scegli questo tipo di set di dati quando i dati di allenamento non sono dati di serie temporali, ma includono informazioni sui metadati sugli elementi della serie temporale di destinazione o sui set di dati delle serie temporali correlate. Ad esempio, se stai prevedendo la domanda di articoli, un set di dati di metadati degli articoli potrebbe avere o come dimensioni. color brand

    Forecast considera i dati forniti dal tipo di set di dati di metadati di un elemento solo quando si utilizza l'algoritmo CNN-QR o DeepAr+.

    I metadati degli elementi sono particolarmente utili negli scenari di previsione con avvio a freddo, in cui si hanno pochi dati storici diretti con cui effettuare previsioni, ma hanno dati storici su elementi con attributi di metadati simili. Quando includi i metadati degli articoli, Forecast crea previsioni con avvio a freddo basate su serie temporali simili, che possono creare una previsione più accurata.

A seconda delle informazioni nei dati di training e di ciò che desideri prevedere, puoi creare più di un set di dati.

Ad esempio, supponiamo di voler generare una previsione per la domanda di articoli al dettaglio, ad esempio scarpe e calzini. È possibile creare i seguenti set di dati nel dominio: RETAIL

  • Set di dati delle serie temporali di destinazione: include i dati storici della domanda in serie temporali per gli articoli al dettaglio (item_idtimestamp, e il campo di destinazione). demand Poiché designa il campo di destinazione che desideri prevedere, devi avere almeno un set di dati di serie temporali target in un gruppo di set di dati.

    Puoi anche aggiungere fino a dieci altre dimensioni a un set di dati di serie temporali target. Se includi solo un set di dati di serie temporali target nel gruppo di set di dati, puoi creare previsioni solo a livello di voce o a livello di dimensioni di previsione della sola granularità. Per ulteriori informazioni, consulta CreatePredictor.

  • Set di dati sulle serie temporali correlate: include dati di serie temporali storiche diversi dal campo di destinazione, come o. price revenue Poiché i dati relativi alle serie temporali correlate devono essere mappabili ai dati delle serie temporali target, ogni set di dati delle serie temporali correlate deve contenere gli stessi campi di identificazione. Nel RETAIL dominio, questi sarebbero item_id e. timestamp

    Un set di dati di serie temporali correlato potrebbe contenere dati che perfezionano le previsioni ricavate dal set di dati delle serie temporali di destinazione. Ad esempio, è possibile includere dati price nel set di dati di serie temporali correlate nelle date future per cui si desidera generare una previsione. In questo modo, Forecast può fare previsioni con una dimensione di contesto aggiuntiva. Per ulteriori informazioni, consulta Utilizzo di set di dati relativi alle serie temporali.

  • Set di dati di metadati degli articoli: include i metadati per gli articoli al dettaglio. Altri esempi di metadati includono brand, category, color e genre.

Esempio di set di dati con una dimensione di previsione

Seguendo l'esempio precedente, immagina di voler prevedere la domanda di scarpe e calzini in base alle precedenti vendite di un negozio. Nel seguente set di dati di serie temporali target, store è una dimensione di previsione delle serie temporali, mentre demand è il campo di destinazione. I calzini vengono venduti in due punti vendita (NYCeSFO) e le scarpe vengono vendute solo in. ORD

Le prime tre righe di questa tabella contengono i primi dati di vendita disponibili per i ORD negozi NYCSFO, e. Le ultime tre righe contengono gli ultimi dati di vendita registrati per ogni store. La riga ... rappresenta tutti i dati di vendita degli articoli registrati tra la prima e l'ultima voce.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Schema del set di dati

Ogni set di dati richiede uno schema, una JSON mappatura fornita dall'utente dei campi nei dati di allenamento. Qui puoi elencare le dimensioni e le caratteristiche obbligatorie e facoltative che desideri includere nel set di dati.

Se il set di dati include un attributo di geolocalizzazione, definisci l'attributo all'interno dello schema con il tipo di attributo. geolocation Per ulteriori informazioni, consulta Aggiungere informazioni sulla geolocalizzazione. Per applicare l'indice meteorologico, è necessario includere un attributo di geolocalizzazione nelle serie temporali di destinazione e in tutti i set di dati delle serie temporali correlati.

Alcuni domini hanno dimensioni opzionali che consigliamo di includere. Le dimensioni facoltative sono elencate nelle descrizioni di ciascun dominio più avanti in questa guida. Per vedere un esempio, consulta RETAILDominio. Tutte le dimensioni opzionali utilizzano il tipo di dati string.

Uno schema è obbligatorio per ogni set di dati. Di seguito è riportato lo schema di accompagnamento per il set di dati delle serie temporali di destinazione di esempio illustrate in precedenza.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Quando carichi i dati di allenamento nel set di dati che utilizza questo schema, Forecast presuppone che il timestamp campo sia la colonna 1, il item_id campo sia la colonna 2, il store campo sia la colonna 3 e il demand campo, il campo di destinazione, sia la colonna 4.

Per il tipo di set di dati di serie temporali correlate, tutte le caratteristiche correlate devono avere un tipo di attributo float o integer. Per il tipo di set di dati dei metadati degli articoli, tutte le caratteristiche devono avere un tipo di attributo stringa. Per ulteriori informazioni, consulta SchemaAttribute.

Nota

È richiesta una attributeType coppia attributeName and per ogni colonna del set di dati. Forecast riserva una serie di nomi che non possono essere utilizzati come nome di un attributo dello schema. Per l'elenco dei nomi riservati, consulta Nomi di campi riservati.

Gruppi di set di dati

Un gruppo di set di dati è una raccolta di un numero di set di dati correlati compreso tra uno e tre, uno per ogni tipo di set di dati. Puoi importare set di dati in un gruppo di set di dati, quindi utilizzare il gruppo di set di dati per eseguire il training di un predittore.

Forecast include le seguenti operazioni per creare gruppi di set di dati e aggiungervi set di dati:

Risoluzione dei conflitti nella frequenza di raccolta dei dati

Forecast può addestrare i predittori con dati che non sono in linea con la frequenza dei dati specificata nell'CreateDatasetoperazione. Ad esempio, puoi importare i dati registrati a intervalli orari anche se alcuni dati non hanno un timestamp all'inizio dell'ora (02:20, 02:45). Forecast utilizza la frequenza dei dati specificata per conoscere i dati. Quindi Forecast aggrega i dati durante l'addestramento dei predittori. Per ulteriori informazioni, consulta Aggregazione dei dati per diverse frequenze di previsione.