Menangani Nilai yang Hilang - Amazon Forecast

Amazon Forecast tidak lagi tersedia untuk pelanggan baru. Pelanggan Amazon Forecast yang ada dapat terus menggunakan layanan seperti biasa. Pelajari lebih lanjut”

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menangani Nilai yang Hilang

Masalah umum dalam data peramalan deret waktu adalah adanya nilai yang hilang. Data Anda mungkin berisi nilai yang hilang karena sejumlah alasan, termasuk kegagalan pengukuran, masalah pemformatan, kesalahan manusia, atau kurangnya informasi untuk direkam. Misalnya, jika Anda memperkirakan permintaan produk untuk toko ritel dan barang terjual habis atau tidak tersedia, tidak akan ada data penjualan untuk dicatat saat barang itu kehabisan stok. Jika cukup umum, nilai yang hilang dapat secara signifikan memengaruhi akurasi model.

Amazon Forecast menyediakan sejumlah metode pengisian untuk menangani nilai yang hilang dalam deret waktu target dan kumpulan data deret waktu terkait. Pengisian adalah proses menambahkan nilai standar ke entri yang hilang dalam kumpulan data Anda.

Forecast mendukung metode pengisian berikut:

  • Pengisian tengah - Mengisi nilai yang hilang antara item mulai dan tanggal akhir item dari kumpulan data.

  • Pengisian kembali - Mengisi nilai yang hilang antara titik data terakhir yang direkam dan tanggal akhir global dari kumpulan data.

  • Pengisian di masa depan (hanya deret waktu terkait) - Mengisi nilai yang hilang antara tanggal akhir global dan akhir cakrawala perkiraan.

Gambar berikut memberikan representasi visual dari metode pengisian yang berbeda.

Timeline showing three items with varying durations and fill methods between global start and end dates.

Memilih Logika Pengisian

Saat memilih logika pengisian, Anda harus mempertimbangkan bagaimana logika akan ditafsirkan oleh model Anda. Misalnya, dalam skenario ritel, mencatat 0 penjualan barang yang tersedia berbeda dengan mencatat 0 penjualan barang yang tidak tersedia, karena yang terakhir tidak menyiratkan kurangnya minat pelanggan pada item tersebut. Karena itu, 0 mengisi deret waktu target dapat menyebabkan prediktor menjadi kurang bias dalam prediksinya, sementara NaN pengisian mungkin mengabaikan kejadian aktual dari 0 item yang tersedia yang dijual dan menyebabkan prediktor menjadi terlalu bias.

Grafik deret waktu berikut menggambarkan bagaimana memilih nilai pengisian yang salah dapat secara signifikan memengaruhi keakuratan model Anda. Grafik A dan B memplot permintaan untuk item yang sebagian out-of-stock, dengan garis hitam mewakili data penjualan aktual. Nilai yang hilang di A1 diisi dengan0, yang mengarah ke prediksi yang relatif kurang bias (diwakili oleh garis putus-putus) di A2. Demikian pula, nilai yang hilang di B1 diisi denganNaN, yang mengarah ke prediksi yang lebih tepat di B2.

Time-series graphs comparing item demand predictions with different filling values for missing data.

Untuk daftar logika pengisian yang didukung, lihat bagian berikut.

Deret Waktu Target dan Logika Pengisian Deret Waktu Terkait

Anda dapat melakukan pengisian pada deret waktu target dan kumpulan data deret waktu terkait. Setiap jenis kumpulan data memiliki pedoman dan batasan pengisian yang berbeda.

Pedoman Pengisian
Jenis dataset Mengisi secara default? Metode pengisian yang didukung Logika pengisian default Logika pengisian yang diterima
Target deret waktu Ya Isi tengah dan belakang 0
  • zero- 0 mengisi.

  • value- bilangan bulat atau nomor float.

  • nan- Bukan angka.

  • mean- nilai rata-rata dari seri data.

  • median- nilai median dari seri data.

  • min- nilai minimum dari seri data.

  • max- nilai maksimum dari seri data.

Deret waktu terkait Tidak Pengisian tengah, belakang, dan future Tidak ada default
  • zero- 0 mengisi.

  • value- nilai integer atau float.

  • mean- nilai rata-rata dari seri data.

  • median- nilai median dari seri data.

  • min- nilai minimum dari seri data.

  • max- nilai maksimum dari seri data.

penting

Untuk kumpulan data target dan deret waktu terkait,,mean,median,min, dan max dihitung berdasarkan jendela bergulir dari 64 entri data terbaru sebelum nilai yang hilang.

Sintaks Nilai Hilang

Untuk melakukan pengisian nilai yang hilang, tentukan jenis pengisian yang akan diterapkan saat Anda memanggil CreatePredictoroperasi. Logika pengisian ditentukan dalam FeaturizationMethodobjek.

Kutipan berikut menunjukkan FeaturizationMethod objek yang diformat dengan benar untuk atribut deret waktu target dan atribut deret waktu terkait (target_valuedan masing-masing). price

Untuk mengatur metode pengisian ke nilai tertentu, atur parameter isian ke value dan tentukan nilai dalam _value parameter yang sesuai. Seperti yang ditunjukkan di bawah ini, penimbunan ulang untuk deret waktu terkait diatur ke nilai 2 dengan yang berikut: "backfill": "value" dan"backfill_value":"2".

[ { "AttributeName": "target_value", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "aggregation": "sum", "middlefill": "zero", "backfill": "zero" } } ] }, { "AttributeName": "price", "FeaturizationPipeline": [ { "FeaturizationMethodName": "filling", "FeaturizationMethodParameters": { "middlefill": "median", "backfill": "value", "backfill_value": "2", "futurefill": "max" } } ] } ]