時系列データ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

時系列データ

時系列データとは、3 次元データフレームにロードできるデータを指します。フレームでは、各タイムスタンプで、各行はターゲットレコードを表し、各ターゲットレコードには 1 つ以上の関連列があります。各データフレームセル内の値は、数値、カテゴリ、またはテキストデータ型にすることができます。

時系列データセットの前提条件

分析の前に、データクリーニングや機能エンジニアリングなど、データを準備するために必要な前処理ステップを完了します。1 つまたは複数のデータセットを提供できます。複数のデータセットを指定する場合は、次のいずれかの方法を使用して SageMaker 、Clarify 処理ジョブにデータセットを指定します。

  • ProcessingInput という名前datasetまたは分析設定dataset_uriを使用して、メインデータセットを指定します。の詳細についてはdataset_uri、 のパラメータリストを参照してください分析設定ファイル

  • 分析析設定ファイルにある baseline パラメータを使用します。ベースラインデータセットがある場合はstatic_covariates、 に必要です。例を含む分析設定ファイルの詳細については、「」を参照してください分析設定ファイル

次の表は、サポートされているデータ形式、ファイル拡張子、およびMIMEタイプを示しています。

データ形式 ファイル拡張子 MIME タイプ

item_records

json

application/json

timestamp_records

json

application/json

columns

json

application/json

JSON は、構造化データのあらゆるレベルの複雑さを表すことができる柔軟な形式です。表に示すように、 SageMaker Clarify は形式 item_records、、timestamp_recordsおよび をサポートしていますcolumns

時系列データセットの設定例

このセクションでは、 を使用してtime_series_data_config時系列データを JSON 形式で分析設定する方法について説明します。タイムスタンプ (t)、ターゲット時系列 (x)、2 つの関連する時系列 (r)、および 2 つの静的共変量 (u) がそれぞれ含まれる 2 つの項目を持つデータセットがあるとします。

t1 = [0,1,2]、t2 = [2,3]

x1 = [5,6,4]、x2 = [0,4]

r1 = [0,1,0]、r 21 = [1,1]

r 12 = [0,0,0]、r 22 = [1,0]

u 11 = -1、u 21 = 0

u 12 = 1、u 22 = 2

データセットは、 に応じて 3 つの異なる方法で time_series_data_configを使用してエンコードできますdataset_format。以下のセクションでは、各メソッドについて説明します。

dataset_format が の場合の時系列データ設定 columns

次の例では、 columnsの値を使用しますdataset_format。次のJSONファイルは、前のデータセットを表します。

{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }

項目 ID は idsフィールドで繰り返されることに注意してください。の正しい実装time_series_data_configを次に示します。

"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }

dataset_format が の場合の時系列データ設定 item_records

次の例では、 item_recordsの値を使用しますdataset_format。次のJSONファイルはデータセットを表します。

[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]

各項目は、 で個別のエントリとして表されますJSON。次のスニペットは、対応する time_series_data_config ( を使用する) を示していますJMESPath。

"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }

dataset_format が の場合の時系列データ設定 timestamp_record

次の例では、 timestamp_recordの値を使用しますdataset_format。次のJSONファイルは、前のデータセットを表します。

[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]

の各エントリJSONは 1 つのタイムスタンプを表し、1 つの項目に対応します。実装time_series_data_configは次のように表示されます。

{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }