Données de séries temporelles - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Données de séries temporelles

Les données de séries chronologiques font référence aux données qui peuvent être chargées dans un cadre de données tridimensionnel. Dans le cadre, dans chaque horodatage, chaque ligne représente un enregistrement cible, et chaque enregistrement cible possède une ou plusieurs colonnes associées. Les valeurs de chaque cellule du bloc de données peuvent être de type numérique, catégoriel ou texte.

Prérequis pour les jeux de données de séries chronologiques

Avant l'analyse, effectuez les étapes de prétraitement nécessaires à la préparation de vos données, telles que le nettoyage des données ou l'ingénierie des fonctionnalités. Vous pouvez fournir un ou plusieurs jeux de données. Si vous fournissez plusieurs ensembles de données, utilisez l'une des méthodes suivantes pour les fournir à la tâche de traitement SageMaker Clarify :

  • Utilisez une configuration ProcessingInputnommée dataset ou la configuration d'analyse dataset_uri pour spécifier le jeu de données principal. Pour plus d'informations surdataset_uri, consultez la liste des paramètres dansConfigurer l'analyse.

  • Utilisez le paramètre baseline fourni dans le fichier de configuration d'analyse. Le jeu de données de référence est requis pourstatic_covariates, s'il est présent. Pour plus d'informations sur le fichier de configuration d'analyse, notamment des exemples, consultezConfigurer l'analyse.

Le tableau suivant répertorie les formats de données pris en charge, leurs extensions de fichiers et leurs MIME types.

Format de données Extension de fichier MIMEtype

item_records

json

application/json

timestamp_records

json

application/json

columns

json

application/json

JSONest un format flexible qui peut représenter n'importe quel niveau de complexité de vos données structurées. Comme indiqué dans le tableau, SageMaker Clarify prend en charge item_records les formatstimestamp_records, etcolumns.

Exemples de configuration de jeux de données de séries chronologiques

Cette section explique comment définir une configuration d'analyse à l'aide time_series_data_config de données de séries chronologiques au JSON format. Supposons que vous disposiez d'un ensemble de données comportant deux éléments, chacun comportant un horodatage (t), une série chronologique cible (x), deux séries chronologiques connexes (r) et deux covariables statiques (u), comme suit :

t 1 = [0,1,2], t 2 = [2,3]

x 1 = [5,6,4], x 2 = [0,4]

r 1 = [0,1,0], r 2 1 = [1,1]

r 1 2 = [0,0,0], r 2 2 = [1,0]

u 1 1 = -1, u 2 1 = 0

u 1 2 = 1, u 2 2 = 2

Vous pouvez encoder le jeu de données time_series_data_config de trois manières différentes, selondataset_format. Les sections suivantes décrivent chaque méthode.

Configuration des données de séries chronologiques : quand dataset_format est-ce columns

L'exemple suivant utilise la columns valeur pourdataset_format. Le JSON fichier suivant représente le jeu de données précédent.

{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }

Notez que les identifiants des articles sont répétés dans le ids champ. La mise en œuvre correcte de time_series_data_config est illustrée comme suit :

"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }

Configuration des données de séries chronologiques : quand dataset_format est-ce item_records

L'exemple suivant utilise la item_records valeur pourdataset_format. Le JSON fichier suivant représente l'ensemble de données.

[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]

Chaque élément est représenté sous forme d'entrée distincte dans leJSON. L'extrait suivant montre le correspondant time_series_data_config (qui utiliseJMESPath).

"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }

Configuration des données de séries chronologiques : quand dataset_format est-ce timestamp_record

L'exemple suivant utilise la timestamp_record valeur pourdataset_format. Le JSON fichier suivant représente le jeu de données précédent.

[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]

Chaque entrée JSON représente un horodatage unique et correspond à un seul élément. La mise en œuvre time_series_data_config est illustrée comme suit :

{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }