Datensätze importieren - Amazon Forecast

Amazon Forecast ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von Amazon Forecast können den Service weiterhin wie gewohnt nutzen. Erfahren Sie mehr“

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datensätze importieren

Datasets enthalten die Daten, die zum Trainieren eines Predictors verwendet werden. Sie erstellen einen oder mehrere Amazon Forecast-Datensätze und importieren Ihre Trainingsdaten in diese. Eine Datensatzgruppe ist eine Sammlung ergänzender Datensätze, in denen eine Reihe sich ändernder Parameter im Laufe einer Reihe von Zeiträumen detailliert beschrieben wird. Nachdem Sie eine Dataset-Gruppe erstellt haben, verwenden Sie sie zum Schulen eines Predictors.

Jede Dataset-Gruppe kann bis zu drei Datasets enthalten, eines von jedem Dataset-Typ: Ziel-Zeitreihen, verwandte Zeitreihen und Artikel-Metadaten.

Um Prognose-Datasets und Datensatzgruppen zu erstellen und zu verwalten, können Sie die Prognose-Konsole verwenden. AWS Command Line Interface (AWS CLI), oder AWS SDK.

Beispiele für Prognose-Datensätze finden Sie im Amazon GitHub Forecast-Beispiel-Repository.

Datensätze

Um Prognose-Datensätze zu erstellen und zu verwalten, können Sie die Forecast APIs einschließlich der DescribeDataset Operationen CreateDataset und verwenden. Eine vollständige Liste der Forecast APIs finden Sie unterAPIReferenz.

Beim Erstellen eines Datasets geben Sie u. a. folgende Informationen an:

  • Die Häufigkeit/das Intervall, mit der bzw. dem Sie Ihre Daten aufgezeichnet haben. Sie können beispielsweise Einzelhandelsartikelverkäufe jede Woche aggregieren und aufzeichnen. In der Erste Schritte-Übung verwenden Sie den durchschnittlich verbrauchten Strom pro Stunde.

  • Das Voraussageformat (die Domäne) und der Dataset-Typ (innerhalb der Domäne). Eine Datensatz-Domain gibt an, welche Art von Forecast du durchführen möchtest, während ein Datensatztyp dir dabei hilft, deine Trainingsdaten in prognosefreundliche Kategorien zu organisieren.

  • Das Dataset-Schema Ein Schema ordnet die Spaltenüberschriften Ihres Datasets zu. Wenn Sie beispielsweise die Nachfrage überwachen, haben Sie möglicherweise stündliche Daten über den Verkauf eines Artikels in mehreren Geschäften gesammelt. In diesem Fall würde Ihr Schema die Reihenfolge von links nach rechts definieren, in der Zeitstempel, Standort und Stundensatz in Ihrer Schulungsdatendatei angezeigt werden. Schemata definieren auch den Datentyp der einzelnen Spalten, z. B. string oder integer.

  • Informationen zur Geolokalisierung und Zeitzone. Das Geolocation-Attribut ist innerhalb des Schemas mit dem Attributtyp definiert. geolocation Zeitzoneninformationen werden mit dem CreateDatasetImportJobVorgang definiert. Sowohl Geolokalisierungs- als auch Zeitzonendaten müssen enthalten sein, um den Wetterindex zu aktivieren.

Jede Spalte in Ihrem Prognose-Dataset stellt entweder eine Prognosedimension oder ein Prognose-Feature dar. Prognosedimensionen beschreiben die Aspekte Ihrer Daten, die sich im Laufe der Zeit nicht ändern, z. B. store oder location Prognosefunktionen enthalten alle Parameter in Ihren Daten, die im Laufe der Zeit variieren, z. B. price oder promotion. Einige Dimensionen, z. B. timestamp oder itemId, sind in Ziel-Zeitreihen-Datasets und Datasets verwandter Zeitreihen erforderlich.

Dataset-Domänen und Dataset-Typen

Wenn Sie einen Prognose-Datensatz erstellen, wählen Sie eine Domäne und einen Datensatztyp aus. Forecast bietet Domains für eine Reihe von Anwendungsfällen, z. B. für die Prognose der Einzelhandelsnachfrage oder des Web-Traffics. Sie können auch eine benutzerdefinierte Domäne erstellen. Eine vollständige Liste der Forecast-Domänen finden Sie unterVordefinierte Dataset-Domänen und Dataset-Typen.

Innerhalb jeder Domain können Forecast-Benutzer die folgenden Arten von Datensätzen angeben:

  • Ziel-Zeitreihen-Datensatz (erforderlich) — Verwenden Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten um Zeitreihen handelt und diese das Feld enthalten, für das Sie eine Prognose erstellen möchten. Dieses Feld wird als Zielfeld bezeichnet.

  • Verwandter Zeitreihendatensatz (optional) — Wählen Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten um Zeitreihen handelt, diese aber das Zielfeld nicht enthalten. Wenn Sie beispielsweise eine Artikelnachfrage prognostizieren, kann ein Dataset verwandter Zeitreihen zwar über price aber nicht über demand als Feld verfügen.

  • Element-Metadaten-Datensatz (optional) — Wählen Sie diesen Datensatztyp, wenn es sich bei Ihren Trainingsdaten nicht um Zeitreihendaten handelt, sondern Metadateninformationen zu den Elementen in der Zielzeitreihe oder in verwandten Zeitreihendatensätzen enthalten. Wenn Sie beispielsweise die Artikelnachfrage prognostizieren, kann ein Element-Metadaten-Datensatz Dimensionen color oder brand als Dimensionen haben.

    Forecast berücksichtigt nur die Daten, die von einem Elementmetadaten-Datensatztyp bereitgestellt werden, wenn Sie den Algorithmus CNN-QR oder DeePar+ verwenden.

    Artikel-Metadaten sind besonders nützlich in Kaltstart-Prognoseszenarien, in denen Sie über wenig direkte historische Daten, anhand derer Sie Vorhersagen treffen können, verfügen, aber über historische Daten über Artikel mit ähnlichen Metadaten-Attributen. Wenn Sie Elementmetadaten einbeziehen, erstellt Forecast Kaltstartprognosen auf der Grundlage ähnlicher Zeitreihen, wodurch genauere Prognosen erstellt werden können.

Abhängig von den Informationen in Ihren Schulungsdaten und dem, was Sie prognostizieren möchten, können Sie mehr als ein Dataset erstellen.

Angenommen, Sie möchten eine Prognose für die Nachfrage nach Einzelhandelsartikeln wie Schuhe, Socken usw. erstellen. Sie könnten die folgenden Datensätze in der Domain erstellen: RETAIL

  • Ziel-Zeitreihen-Datensatz — Enthält die historischen Zeitreihen-Nachfragedaten für die Einzelhandelsartikel (item_id,timestamp, und das Zielfelddemand). Da es das Zielfeld angibt, für das Sie eine Prognose erstellen möchten, müssen Sie mindestens ein Ziel-Zeitreihen-Dataset in einer Dataset-Gruppe haben.

    Sie können einem Ziel-Zeitreihen-Dataset auch bis zu zehn weitere Dimensionen hinzufügen. Wenn Sie nur ein Ziel-Zeitreihen-Dataset in Ihre Dataset-Gruppe aufnehmen, können Sie Prognosen entweder auf Artikelebene oder auf Prognosedimensionsebene erstellen. Weitere Informationen finden Sie unter CreatePredictor.

  • Verwandter Zeitreihendatensatz — Enthält historische Zeitreihendaten mit Ausnahme des Zielfeldes, z. B. price oder. revenue Damit Daten verwandter Zeitreihen den Ziel-Zeitreihen-Daten zugeordnet werden können, muss jedes Dataset verwandter Zeitreihen die dieselben identifizierenden Felder enthalten. In der RETAIL Domäne wären dies item_id undtimestamp.

    Ein verwandtes Zeitreihen-Dataset kann Daten enthalten, die die Prognosen aus dem Zielzeitreihen-Dataset verfeinern. Sie können beispielsweise price-Daten in Ihr Dataset verwandter Zeitreihen für zukünftige Datumsangaben einschließen, für die Sie eine Prognose generieren möchten. Auf diese Weise kann Forecast Vorhersagen mit einer zusätzlichen Kontextdimension treffen. Weitere Informationen finden Sie unter Verwenden von Datasets verwandter Zeitreihen.

  • Datensatz mit Artikelmetadaten — Beinhaltet Metadaten für Einzelhandelsartikel. Weitere Beispiele für Metadaten sind brand, category, color und genre.

Beispiel-Dataset mit einer Prognosedimension

Stellen Sie sich in Anlehnung an das vorherige Beispiel vor, dass Sie die Nachfrage nach Schuhen und Socken basierend auf den vorherigen Verkäufen in einem Geschäft prognostizieren möchten. Im folgenden Ziel-Zeitreihen-Dataset ist store eine Zeitreihen-Prognosedimension, während demand das Zielfeld ist. Socken werden in zwei Filialen (NYCundSFO) verkauft, Schuhe werden nur in Geschäften verkauftORD.

Die ersten drei Zeilen dieser Tabelle enthalten die ersten verfügbaren Verkaufsdaten für die ORD Geschäfte NYCSFO, und. Die letzten drei Zeilen enthalten die zuletzt aufgezeichneten Verkaufsdaten für jede Filiale. Die Zeile ... stellt alle Artikelverkaufsdaten dar, die zwischen dem ersten und dem letzten Eintrag aufgezeichnet wurden.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Dataset-Schema

Jeder Datensatz benötigt ein Schema, eine vom Benutzer bereitgestellte JSON Zuordnung der Felder in Ihren Trainingsdaten. Hier listen Sie sowohl die erforderlichen als auch die optionalen Dimensionen und Funktionen auf, die Sie in Ihr Dataset aufnehmen möchten.

Wenn Ihr Datensatz ein Geolocation-Attribut enthält, definieren Sie das Attribut innerhalb des Schemas mit dem Attributtyp. geolocation Weitere Informationen finden Sie unter Geolocation-Informationen hinzufügen. Um den Wetterindex anwenden zu können, müssen Sie ein Geolocation-Attribut in Ihre Zielzeitreihe und alle zugehörigen Zeitreihendatensätze aufnehmen.

Einige Domänen haben optionale Dimensionen, die wir empfehlen, einzubeziehen. Optionale Dimensionen werden in den Beschreibungen der einzelnen Domänen weiter unten in dieser Anleitung aufgeführt. Ein Beispiel finden Sie unter RETAILDomäne. Alle optionalen Dimensionen nehmen den Datentyp string an.

Für jedes Dataset ist ein Schema erforderlich. Im Folgenden finden Sie das zugehörige Schema für das obige Zielzeitreihen-Dataset.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Wenn Sie Ihre Trainingsdaten in den Datensatz hochladen, der dieses Schema verwendet, geht Forecast davon aus, dass das timestamp item_id Feld Spalte 1, das store Feld Spalte 2, das Feld Spalte 3 und das demand Feld, das Zielfeld, Spalte 4 ist.

Für den Dataset-Typ der verwandte Zeitreihen müssen alle zugehörigen Funktionen den Attributtyp Gleitkommazahl oder Ganzzahl aufweisen. Für den Artikel-Metadaten-Dataset-Typ müssen alle Funktionen den Attributtyp Zeichenfolge haben. Weitere Informationen finden Sie unter SchemaAttribute.

Anmerkung

Für jede Spalte im Datensatz ist ein attributeName attributeType Und-Paar erforderlich. Forecast reserviert eine Reihe von Namen, die nicht als Name eines Schemaattributs verwendet werden können. Die Liste der reservierten Namen finden Sie unter Reservierte Feldnamen.

Dataset-Gruppen

Eine Dataset-Gruppe ist eine Sammlung von einem bis drei verwandten Datasets, mit einem von jedem Dataset-Typ. Sie importieren Datasets in eine Dataset-Gruppe und verwenden dann die Dataset-Gruppe, um einen Predictor zu schulen.

Forecast umfasst die folgenden Operationen zum Erstellen von Datensatzgruppen und zum Hinzufügen von Datensätzen zu diesen:

Beheben von Konflikten in der Häufigkeit der Datensammlung

Forecast kann Prädiktoren mit Daten trainieren, die nicht mit der Datenhäufigkeit übereinstimmen, die Sie in der CreateDataset Operation angeben. Sie können beispielsweise Daten importieren, die in stündlichen Intervallen aufgezeichnet wurden, obwohl einige der Daten zu Beginn der Stunde nicht mit einem Zeitstempel versehen sind (02:20, 02:45). Forecast verwendet die von Ihnen angegebene Datenhäufigkeit, um mehr über Ihre Daten zu erfahren. Anschließend aggregiert Forecast die Daten während des Prädiktortrainings. Weitere Informationen finden Sie unter Datenaggregation für verschiedene Prognosefrequenzen.