Mengimpor Dataset - Amazon Forecast

Amazon Forecast tidak lagi tersedia untuk pelanggan baru. Pelanggan Amazon Forecast yang ada dapat terus menggunakan layanan seperti biasa. Pelajari lebih lanjut”

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengimpor Dataset

Dataset berisi data yang digunakan untuk melatih prediktor. Anda membuat satu atau beberapa kumpulan data Amazon Forecast dan mengimpor data pelatihan Anda ke dalamnya. Grup dataset adalah kumpulan kumpulan data komplementer yang merinci serangkaian parameter yang berubah selama serangkaian waktu. Setelah membuat grup kumpulan data, Anda menggunakannya untuk melatih prediktor.

Setiap grup kumpulan data dapat memiliki hingga tiga kumpulan data, satu dari setiap jenis kumpulan data: deret waktu target, deret waktu terkait, dan metadata item.

Untuk membuat dan mengelola kumpulan data Forecast dan grup kumpulan data, Anda dapat menggunakan konsol Forecast, AWS Command Line Interface (AWS CLI), atau AWS SDK.

Misalnya kumpulan data Forecast, lihat repositori Amazon Forecast Sample GitHub.

Set Data

Untuk membuat dan mengelola kumpulan data Forecast, Anda dapat menggunakan ForecastAPIs, termasuk CreateDataset dan DescribeDataset operasi. Untuk daftar lengkap ForecastAPIs, lihatAPIReferensi.

Saat membuat kumpulan data, Anda memberikan informasi, seperti berikut ini:

  • Frekuensi/interval di mana Anda merekam data Anda. Misalnya, Anda dapat mengumpulkan dan mencatat penjualan barang ritel setiap minggu. Dalam Memulai latihan, Anda menggunakan listrik rata-rata yang digunakan per jam.

  • Format prediksi (domain) dan jenis dataset (dalam domain). Domain kumpulan data menentukan jenis perkiraan yang ingin Anda lakukan, sementara jenis kumpulan data membantu Anda mengatur data pelatihan Anda ke dalam kategori ramah-Forecast.

  • Skema dataset. Skema memetakan header kolom dari kumpulan data Anda. Misalnya, saat memantau permintaan, Anda mungkin telah mengumpulkan data per jam tentang penjualan barang di beberapa toko. Dalam hal ini, skema Anda akan menentukan urutan, dari kiri ke kanan, di mana stempel waktu, lokasi, dan penjualan per jam muncul di file data pelatihan Anda. Skema juga menentukan tipe data setiap kolom, seperti string atauinteger.

  • Informasi geolokasi dan zona waktu. Atribut geolokasi didefinisikan dalam skema dengan tipe atribut. geolocation Informasi zona waktu ditentukan dengan CreateDatasetImportJoboperasi. Data geolokasi dan zona waktu harus disertakan untuk mengaktifkan Indeks Cuaca.

Setiap kolom dalam kumpulan data Forecast Anda mewakili dimensi atau fitur perkiraan. Dimensi Forecast menggambarkan aspek data Anda yang tidak berubah seiring waktu, seperti store ataulocation. Fitur Forecast mencakup parameter apa pun dalam data Anda yang bervariasi sepanjang waktu, seperti price ataupromotion. Beberapa dimensi, seperti timestamp atauitemId, diperlukan dalam deret waktu target dan kumpulan data deret waktu terkait.

Dataset Domain dan Jenis Dataset

Saat membuat kumpulan data Forecast, Anda memilih domain dan jenis kumpulan data. Forecast menyediakan domain untuk sejumlah kasus penggunaan, seperti memperkirakan permintaan ritel atau lalu lintas web. Anda juga dapat membuat domain khusus. Untuk daftar lengkap domain Forecast, lihatDomain Dataset dan Jenis Dataset yang Telah Ditetapkan.

Dalam setiap domain, pengguna Forecast dapat menentukan jenis kumpulan data berikut:

  • Kumpulan data deret waktu target (wajib) - Gunakan jenis kumpulan data ini saat data pelatihan Anda adalah deret waktu dan mencakup bidang yang ingin Anda hasilkan perkiraan. Bidang ini disebut bidang target.

  • Kumpulan data deret waktu terkait (opsional) - Pilih jenis kumpulan data ini saat data pelatihan Anda adalah deret waktu, tetapi tidak termasuk bidang target. Misalnya, jika Anda memperkirakan permintaan item, kumpulan data deret waktu terkait price mungkin memiliki bidang, tetapi tidak. demand

  • Set data metadata item (opsional) — Pilih jenis kumpulan data ini jika data pelatihan Anda bukan data deret waktu, tetapi menyertakan informasi metadata tentang item dalam deret waktu target atau kumpulan data deret waktu terkait. Misalnya, jika Anda memperkirakan permintaan item, kumpulan data metadata item mungkin memiliki color atau sebagai dimensi. brand

    Forecast hanya mempertimbangkan data yang disediakan oleh tipe dataset metadata item saat Anda menggunakan algoritma CNN-QR atau DeepAR+.

    Metadata item sangat berguna dalam skenario peramalan coldstart, di mana Anda memiliki sedikit data historis langsung untuk membuat prediksi, tetapi memiliki data historis pada item dengan atribut metadata serupa. Saat Anda menyertakan metadata item, Forecast membuat perkiraan coldstart berdasarkan deret waktu yang serupa, yang dapat membuat perkiraan yang lebih akurat.

Bergantung pada informasi dalam data pelatihan Anda dan apa yang ingin Anda perkirakan, Anda dapat membuat lebih dari satu kumpulan data.

Misalnya, anggaplah Anda ingin membuat perkiraan untuk permintaan barang eceran, seperti sepatu dan kaus kaki. Anda dapat membuat kumpulan data berikut di domain: RETAIL

  • Kumpulan data deret waktu target - Termasuk data permintaan deret waktu historis untuk item ritel (item_id,timestamp, dan bidang demand target). Karena ini menunjuk bidang target yang ingin Anda perkirakan, Anda harus memiliki setidaknya satu kumpulan data deret waktu target dalam grup kumpulan data.

    Anda juga dapat menambahkan hingga sepuluh dimensi lain ke kumpulan data deret waktu target. Jika Anda hanya menyertakan kumpulan data deret waktu target dalam grup kumpulan data Anda, Anda dapat membuat prakiraan baik di tingkat item atau tingkat perincian dimensi perkiraan saja. Untuk informasi selengkapnya, lihat CreatePredictor.

  • Kumpulan data deret waktu terkait - Termasuk data deret waktu historis selain bidang target, seperti price atau. revenue Karena data deret waktu terkait harus dapat dipetakan untuk menargetkan data deret waktu, setiap kumpulan data deret waktu terkait harus berisi bidang identifikasi yang sama. Dalam RETAIL domain, ini akan menjadi item_id dantimestamp.

    Kumpulan data deret waktu terkait mungkin berisi data yang menyempurnakan perkiraan yang dibuat dari kumpulan data deret waktu target Anda. Misalnya, Anda mungkin menyertakan price data dalam kumpulan data deret waktu terkait pada tanggal masa depan yang ingin Anda hasilkan perkiraan. Dengan cara ini, Forecast dapat membuat prediksi dengan dimensi konteks tambahan. Untuk informasi selengkapnya, lihat Menggunakan Kumpulan Data Deret Waktu Terkait.

  • Set data metadata item — Termasuk metadata untuk item ritel. Contoh metadata meliputibrand,, categorycolor, dan. genre

Contoh Dataset dengan Dimensi Forecast

Melanjutkan dengan contoh sebelumnya, bayangkan Anda ingin memperkirakan permintaan sepatu dan kaus kaki berdasarkan penjualan toko sebelumnya. Dalam kumpulan data deret waktu target berikut, store adalah dimensi perkiraan deret waktu, sedangkan demand bidang target. Kaus kaki dijual di dua lokasi toko (NYCdanSFO), dan sepatu hanya dijual diORD.

Tiga baris pertama dari tabel ini berisi data penjualan pertama yang tersedia untukNYC,SFO, dan ORD toko. Tiga baris terakhir berisi data penjualan terakhir yang tercatat untuk setiap toko. ...Baris mewakili semua data penjualan item yang direkam antara entri pertama dan terakhir.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Skema Dataset

Setiap kumpulan data memerlukan skema, JSON pemetaan bidang yang disediakan pengguna dalam data pelatihan Anda. Di sinilah Anda mencantumkan dimensi dan fitur yang diperlukan dan opsional yang ingin Anda sertakan dalam kumpulan data Anda.

Jika dataset Anda menyertakan atribut geolocation, tentukan atribut dalam skema dengan tipe atribut. geolocation Untuk informasi selengkapnya, lihat Menambahkan informasi Geolokasi. Untuk menerapkan Indeks Cuaca, Anda harus menyertakan atribut geolokasi dalam deret waktu target Anda dan kumpulan data deret waktu terkait.

Beberapa domain memiliki dimensi opsional yang kami sarankan termasuk. Dimensi opsional tercantum dalam deskripsi setiap domain nanti dalam panduan ini. Sebagai contoh, lihat RETAILDomain. Semua dimensi opsional mengambil tipe datastring.

Skema diperlukan untuk setiap dataset. Berikut ini adalah skema yang menyertainya untuk contoh kumpulan data deret waktu target di atas.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Saat Anda mengunggah data latihan ke kumpulan data yang menggunakan skema ini, Forecast mengasumsikan bahwa timestamp bidangnya adalah kolom 1, item_id bidangnya adalah kolom 2, store bidangnya adalah kolom 3, dan demand bidang, bidang target, adalah kolom 4.

Untuk jenis kumpulan data deret waktu terkait, semua fitur terkait harus memiliki tipe atribut float atau integer. Untuk jenis dataset metadata item, semua fitur harus memiliki tipe atribut string. Untuk informasi selengkapnya, lihat SchemaAttribute.

catatan

Sebuah attributeName dan attributeType pasangan diperlukan untuk setiap kolom dalam dataset. Forecast menyimpan sejumlah nama yang tidak dapat digunakan sebagai nama atribut skema. Untuk daftar nama yang dipesan, lihatNama Bidang Cadangan.

Grup Dataset

Grup dataset adalah kumpulan dari satu hingga tiga kumpulan data gratis, salah satu dari setiap jenis dataset. Anda mengimpor kumpulan data ke grup kumpulan data, lalu menggunakan grup kumpulan data untuk melatih prediktor.

Forecast mencakup operasi berikut untuk membuat grup kumpulan data dan menambahkan kumpulan data ke grup tersebut:

Menyelesaikan Konflik dalam Frekuensi Pengumpulan Data

Forecast dapat melatih prediktor dengan data yang tidak selaras dengan frekuensi data yang Anda tentukan dalam operasi. CreateDataset Misalnya, Anda dapat mengimpor data yang direkam dalam interval per jam meskipun beberapa data tidak diberi stempel waktu di bagian atas jam (02:20, 02:45). Forecast menggunakan frekuensi data yang Anda tentukan untuk mempelajari data Anda. Kemudian Forecast mengumpulkan data selama pelatihan prediktor. Untuk informasi selengkapnya, lihat Agregasi data untuk frekuensi perkiraan yang berbeda.