Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Zeitreihendaten
Zeitreihendaten beziehen sich auf Daten, die in einen dreidimensionalen Datenrahmen geladen werden können. In dem Frame steht in jedem Zeitstempel jede Zeile für einen Zieldatensatz, und jeder Zieldatensatz hat eine oder mehrere zugehörige Spalten. Bei den Werten in jeder Zelle des Datenrahmens kann es sich um numerische, kategoriale oder Textdatentypen handeln.
Voraussetzungen für Zeitreihen-Datensätze
Führen Sie vor der Analyse die erforderlichen Vorverarbeitungsschritte zur Vorbereitung Ihrer Daten durch, z. B. Datenbereinigung oder Feature-Engineering. Sie können einen oder mehrere Datensätze bereitstellen. Wenn Sie mehrere Datensätze bereitstellen, verwenden Sie eine der folgenden Methoden, um sie dem Clarif-Verarbeitungsjob zur Verfügung zu SageMaker stellen:
-
Verwenden Sie entweder eine ProcessingInputbenannte Konfiguration
dataset
oder die Analysekonfigurationdataset_uri
, um den Hauptdatensatz anzugeben. Weitere Informationen zudataset_uri
finden Sie in der Parameterliste unterKonfigurationsdateien für die Analyse. -
Verwenden Sie den in der Analysekonfigurationsdatei bereitgestellten
baseline
Parameter. Der Basisdatensatz ist erforderlich fürstatic_covariates
, falls vorhanden. Weitere Informationen zur Analysekonfigurationsdatei, einschließlich Beispielen, finden Sie unterKonfigurationsdateien für die Analyse.
In der folgenden Tabelle sind die unterstützten Datenformate, ihre Dateierweiterungen und MIME Typen aufgeführt.
Data format (Datenformat) | Dateierweiterung | MIMETyp |
---|---|---|
|
json |
|
|
json |
|
|
json |
|
JSONist ein flexibles Format, das jede Komplexität Ihrer strukturierten Daten darstellen kann. Wie in der Tabelle gezeigt, unterstützt SageMaker Clarify die Formate item_records
timestamp_records
, undcolumns
.
Beispiele für die Konfiguration von Zeitreihen-Datensätzen
In diesem Abschnitt erfahren Sie, wie Sie eine Analysekonfiguration unter Verwendung von time_series_data_config
Zeitreihendaten im JSON Format einrichten. Angenommen, Sie haben einen Datensatz mit zwei Elementen, jedes mit einem Zeitstempel (t), einer Zielzeitreihe (x), zwei verwandten Zeitreihen (r) und zwei statischen Kovariaten (u) wie folgt:
t 1 = [0,1,2], t 2 = [2,3]
x 1 = [5,6,4], x 2 = [0,4]
r 1 = [0,1,0], r 2 1 = [1,1]
r 1 2 = [0,0,0], r 2 2 = [1,0]
u 1 1 = -1, u 2 1 = 0
u 1 2 = 1, u 2 2 = 2
Sie können den Datensatz auf drei verschiedene Arten kodieren, abhängig dataset_format
von. time_series_data_config
In den folgenden Abschnitten werden die einzelnen Methoden beschrieben.
Konfiguration der Zeitreihendaten, wann dataset_format
ist columns
Im folgenden Beispiel wird der columns
Wert für verwendetdataset_format
. Die folgende JSON Datei stellt den vorherigen Datensatz dar.
{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }
Beachten Sie, dass die Element-IDs in dem ids
Feld wiederholt werden. Die korrekte Implementierung von time_series_data_config
wird wie folgt dargestellt:
"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }
Konfiguration der Zeitreihendaten, wann dataset_format
ist item_records
Im folgenden Beispiel wird der item_records
Wert für verwendetdataset_format
. Die folgende JSON Datei stellt den Datensatz dar.
[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]
Jedes Element wird als separater Eintrag in der dargestelltJSON. Das folgende Snippet zeigt die entsprechenden time_series_data_config
(welche). JMESPath
"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }
Konfiguration der Zeitreihendaten, wann ist dataset_format
timestamp_record
Im folgenden Beispiel wird der timestamp_record
Wert für verwendetdataset_format
. Die folgende JSON Datei stellt den vorherigen Datensatz dar.
[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]
Jeder Eintrag von JSON steht für einen einzelnen Zeitstempel und entspricht einem einzelnen Element. Die Implementierung time_series_data_config
wird wie folgt dargestellt:
{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }