Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Data deret waktu
Data deret waktu mengacu pada data yang dapat dimuat ke dalam kerangka data tiga dimensi. Dalam bingkai, di setiap stempel waktu, setiap baris mewakili catatan target, dan setiap catatan target memiliki satu atau lebih kolom terkait. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.
Prasyarat kumpulan data deret waktu
Sebelum melakukan analisis, selesaikan langkah-langkah pra-pemrosesan yang diperlukan untuk menyiapkan data Anda, seperti pembersihan data atau rekayasa fitur. Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan salah satu metode berikut untuk memasoknya ke pekerjaan pemrosesan SageMaker Clarify:
-
Gunakan konfigurasi ProcessingInputbernama
dataset
atau analisisdataset_uri
untuk menentukan kumpulan data utama. Untuk informasi selengkapnyadataset_uri
, lihat daftar parameter diFile Konfigurasi Analisis. -
Gunakan
baseline
parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untukstatic_covariates
, jika ada. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihatFile Konfigurasi Analisis.
Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan MIME jenisnya.
Format data | Ekstensi file | MIMEjenis |
---|---|---|
|
json |
|
|
json |
|
|
json |
|
JSONadalah format fleksibel yang dapat mewakili tingkat kompleksitas apa pun dalam data terstruktur Anda. Seperti yang ditunjukkan pada tabel, SageMaker Clarify mendukung formatitem_records
,timestamp_records
, dancolumns
.
Contoh konfigurasi kumpulan data deret waktu
Bagian ini menunjukkan cara mengatur konfigurasi analisis menggunakan time_series_data_config
data deret waktu dalam JSON format. Misalkan Anda memiliki kumpulan data dengan dua item, masing-masing dengan stempel waktu (t), deret waktu target (x), dua deret waktu terkait (r) dan dua kovariat statis (u) sebagai berikut:
t 1 = [0,1,2], t 2 = [2,3]
x 1 = [5,6,4], x 2 = [0,4]
r 1 = [0,1,0], r 2 1 = [1,1]
r 1 2 = [0,0,0], r 2 2 = [1,0]
u 1 1 = -1, u 2 1 = 0
u 1 2 = 1, u 2 2 = 2
Anda dapat menyandikan kumpulan data menggunakan tiga time_series_data_config
cara berbeda, tergantung pada. dataset_format
Bagian berikut menjelaskan setiap metode.
Konfigurasi data deret waktu kapan dataset_format
columns
Contoh berikut menggunakan columns
nilai untukdataset_format
. JSONFile berikut mewakili dataset sebelumnya.
{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }
Perhatikan bahwa id item diulang di ids
lapangan. Implementasi yang time_series_data_config
benar ditunjukkan sebagai berikut:
"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }
Konfigurasi data deret waktu kapan dataset_format
item_records
Contoh berikut menggunakan item_records
nilai untukdataset_format
. JSONFile berikut mewakili dataset.
[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]
Setiap item direpresentasikan sebagai entri terpisah diJSON. Cuplikan berikut menunjukkan yang sesuai time_series_data_config
(yang menggunakanJMESPath).
"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }
Konfigurasi data deret waktu kapan dataset_format
timestamp_record
Contoh berikut menggunakan timestamp_record
nilai untukdataset_format
. JSONFile berikut mewakili dataset sebelumnya.
[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]
Setiap entri JSON mewakili satu stempel waktu dan sesuai dengan satu item. time_series_data_config
Implementasinya ditunjukkan sebagai berikut:
{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }