Panduan Kompatibilitas Format Data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Panduan Kompatibilitas Format Data

Panduan ini menjelaskan tipe format data yang kompatibel dengan pekerjaan pemrosesan SageMaker Clarify. Jenis format data yang didukung mencakup ekstensi file, struktur data, dan persyaratan atau batasan khusus untuk kumpulan data tabular, gambar, dan deret waktu. Panduan ini juga menunjukkan cara memeriksa apakah kumpulan data Anda sesuai dengan persyaratan ini.

Pada tingkat tinggi, pekerjaan pemrosesan SageMaker Clarify mengikuti model input-proses-output untuk menghitung metrik bias dan atribusi fitur. Lihat contoh berikut untuk detailnya.

Masukan untuk pekerjaan pemrosesan SageMaker Clarify terdiri dari yang berikut:

  • Dataset yang akan dianalisis.

  • Konfigurasi analisis. Untuk informasi selengkapnya tentang cara mengonfigurasi analisis, lihatFile Konfigurasi Analisis.

Selama tahap pemrosesan, SageMaker Clarify menghitung metrik bias dan atribusi fitur. Pekerjaan pemrosesan Clarify menyelesaikan langkah-langkah berikut di backend: SageMaker

  • Pekerjaan pemrosesan SageMaker Clarify mem-parsing konfigurasi analisis Anda dan memuat kumpulan data Anda.

  • Untuk menghitung metrik bias pasca-pelatihan dan atribusi fitur, pekerjaan memerlukan prediksi model dari model Anda. Pekerjaan pemrosesan SageMaker Clarify membuat serialisasi data Anda dan mengirimkannya sebagai permintaan ke model Anda yang diterapkan pada titik akhir inferensi SageMaker real-time. Setelah itu, pekerjaan pemrosesan SageMaker Clarify mengekstrak prediksi dari respons.

  • Pekerjaan pemrosesan SageMaker Clarify melakukan analisis bias dan penjelasan, dan kemudian menghasilkan hasilnya.

Untuk informasi selengkapnya, lihat Bagaimana SageMaker Memperjelas Pekerjaan Pemrosesan Pekerjaan.

Parameter yang Anda gunakan untuk menentukan format data bergantung pada di mana data digunakan dalam aliran pemrosesan sebagai berikut:

  • Untuk dataset input, gunakan dataset_type parameter untuk menentukan format atau MIME jenis.

  • Untuk permintaan ke titik akhir, gunakan content_type parameter untuk menentukan format.

  • Untuk respons dari titik akhir, gunakan accept_type parameter untuk menentukan format.

Dataset input, permintaan, dan respons ke dan dari titik akhir tidak memerlukan format yang sama. Misalnya, Anda dapat menggunakan dataset Parket dengan payload CSV permintaan dan payload respons JSON Lines dengan ketentuan berikut.

  • Analisis Anda dikonfigurasi dengan benar.

  • Model Anda mendukung format permintaan dan respons.

catatan

Jika accept_type disediakan content_type atau tidak, maka kontainer SageMaker Clarify menyimpulkan content_type danaccept_type.