Data deret waktu - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Data deret waktu

Data deret waktu mengacu pada data yang dapat dimuat ke dalam kerangka data tiga dimensi. Dalam bingkai, di setiap stempel waktu, setiap baris mewakili catatan target, dan setiap catatan target memiliki satu atau lebih kolom terkait. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

Prasyarat kumpulan data deret waktu

Sebelum melakukan analisis, selesaikan langkah-langkah pra-pemrosesan yang diperlukan untuk menyiapkan data Anda, seperti pembersihan data atau rekayasa fitur. Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan salah satu metode berikut untuk memasoknya ke pekerjaan pemrosesan SageMaker Clarify:

  • Gunakan konfigurasi ProcessingInputbernama dataset atau analisis dataset_uri untuk menentukan kumpulan data utama. Untuk informasi selengkapnyadataset_uri, lihat daftar parameter diFile Konfigurasi Analisis.

  • Gunakan baseline parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untukstatic_covariates, jika ada. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihatFile Konfigurasi Analisis.

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan MIME jenisnya.

Format data Ekstensi file MIMEjenis

item_records

json

application/json

timestamp_records

json

application/json

columns

json

application/json

JSONadalah format fleksibel yang dapat mewakili tingkat kompleksitas apa pun dalam data terstruktur Anda. Seperti yang ditunjukkan pada tabel, SageMaker Clarify mendukung formatitem_records,timestamp_records, dancolumns.

Contoh konfigurasi kumpulan data deret waktu

Bagian ini menunjukkan cara mengatur konfigurasi analisis menggunakan time_series_data_config data deret waktu dalam JSON format. Misalkan Anda memiliki kumpulan data dengan dua item, masing-masing dengan stempel waktu (t), deret waktu target (x), dua deret waktu terkait (r) dan dua kovariat statis (u) sebagai berikut:

t 1 = [0,1,2], t 2 = [2,3]

x 1 = [5,6,4], x 2 = [0,4]

r 1 = [0,1,0], r 2 1 = [1,1]

r 1 2 = [0,0,0], r 2 2 = [1,0]

u 1 1 = -1, u 2 1 = 0

u 1 2 = 1, u 2 2 = 2

Anda dapat menyandikan kumpulan data menggunakan tiga time_series_data_config cara berbeda, tergantung pada. dataset_format Bagian berikut menjelaskan setiap metode.

Konfigurasi data deret waktu kapan dataset_formatcolumns

Contoh berikut menggunakan columns nilai untukdataset_format. JSONFile berikut mewakili dataset sebelumnya.

{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }

Perhatikan bahwa id item diulang di ids lapangan. Implementasi yang time_series_data_config benar ditunjukkan sebagai berikut:

"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }

Konfigurasi data deret waktu kapan dataset_formatitem_records

Contoh berikut menggunakan item_records nilai untukdataset_format. JSONFile berikut mewakili dataset.

[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]

Setiap item direpresentasikan sebagai entri terpisah diJSON. Cuplikan berikut menunjukkan yang sesuai time_series_data_config (yang menggunakanJMESPath).

"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }

Konfigurasi data deret waktu kapan dataset_formattimestamp_record

Contoh berikut menggunakan timestamp_record nilai untukdataset_format. JSONFile berikut mewakili dataset sebelumnya.

[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]

Setiap entri JSON mewakili satu stempel waktu dan sesuai dengan satu item. time_series_data_configImplementasinya ditunjukkan sebagai berikut:

{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }