Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat Baseline
Perhitungan dasar statistik dan kendala diperlukan sebagai standar di mana penyimpangan data dan masalah kualitas data lainnya dapat dideteksi. Model Monitor menyediakan wadah bawaan yang menyediakan kemampuan untuk menyarankan kendala secara otomatis untuk CSV dan input datar. JSON sagemaker-model-monitor-analyzerContainer ini juga memberi Anda berbagai kemampuan pemantauan model, termasuk validasi kendala terhadap baseline, dan memancarkan metrik Amazon. CloudWatch Wadah ini didasarkan pada Spark versi 3.3.0 dan dibangun dengan Deequ_
sebagai satu-satunya karakter khusus.
Dataset pelatihan yang Anda gunakan untuk melatih model biasanya merupakan kumpulan data dasar yang baik. Skema data kumpulan data pelatihan dan skema kumpulan data inferensi harus sama persis (jumlah dan urutan fitur). Perhatikan bahwa kolom prediksi/output diasumsikan sebagai kolom pertama dalam kumpulan data pelatihan. Dari kumpulan data pelatihan, Anda dapat meminta SageMaker untuk menyarankan serangkaian batasan dasar dan menghasilkan statistik deskriptif untuk menjelajahi data. Untuk contoh ini, unggah kumpulan data pelatihan yang digunakan untuk melatih model yang telah dilatih sebelumnya yang termasuk dalam contoh ini. Jika Anda sudah menyimpan kumpulan data pelatihan di Amazon S3, Anda dapat mengarahkannya secara langsung.
Membuat baseline dari dataset pelatihan
Saat data pelatihan Anda siap dan disimpan di Amazon S3, mulailah pekerjaan pemrosesan dasar dengan menggunakan DefaultModelMonitor.suggest_baseline(..)
Amazon Python. SageMaker SDKoutput_s3_uri
from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
catatan
Jika Anda memberikan nama fitur/kolom dalam kumpulan data pelatihan sebagai baris pertama dan mengatur header=True
opsi seperti yang ditunjukkan pada contoh kode sebelumnya, SageMaker gunakan nama fitur dalam file batasan dan statistik.
Statistik dasar untuk kumpulan data terkandung dalam file statistics.json dan batasan dasar yang disarankan terkandung dalam file constraints.json di lokasi yang Anda tentukan. output_s3_uri
File Output untuk Statistik dan Kendala Set Data Tabular
Nama berkas | Deskripsi |
---|---|
statistics.json |
File ini diharapkan memiliki statistik kolumnar untuk setiap fitur dalam kumpulan data yang dianalisis. Untuk informasi selengkapnya tentang skema untuk file ini, lihatSkema untuk Statistik (file statistik.json). |
constraints.json |
File ini diharapkan memiliki kendala pada fitur yang diamati. Untuk informasi selengkapnya tentang skema untuk file ini, lihatSkema untuk Kendala (file kendala json). |
Amazon SageMaker Python SDKEnvironment
peta seperti yang ditunjukkan pada contoh berikut:
"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }