Jalankan Transformasi Batch dengan Pipa Inferensi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan Transformasi Batch dengan Pipa Inferensi

Untuk mendapatkan kesimpulan pada seluruh kumpulan data, Anda menjalankan transformasi batch pada model terlatih. Untuk menjalankan inferensi pada kumpulan data lengkap, Anda dapat menggunakan model pipeline inferensi yang sama yang dibuat dan diterapkan ke titik akhir untuk pemrosesan waktu nyata dalam pekerjaan transformasi batch. Untuk menjalankan tugas transformasi batch dalam pipeline, Anda mengunduh data input dari Amazon S3 dan mengirimkannya dalam satu atau beberapa HTTP permintaan ke model pipeline inferensi. Untuk contoh yang menunjukkan cara menyiapkan data untuk transformasi batch, lihat “Bagian 2 - Memproses data rumahan mentah menggunakan Scikit Learn” dari Titik Akhir SageMaker Multi-Model Amazon menggunakan buku catatan sampel Linear Learner. Untuk informasi tentang transformasi SageMaker batch Amazon, lihatGunakan transformasi batch untuk menjalankan inferensi dengan Amazon SageMaker.

catatan

Untuk menggunakan gambar Docker khusus dalam pipeline yang menyertakan algoritme SageMaker bawaan Amazon, Anda memerlukan kebijakan Amazon Elastic Container Registry (ECR). ECRRepositori Amazon Anda harus memberikan SageMaker izin untuk menarik gambar. Untuk informasi selengkapnya, lihat Memecahkan Masalah ECR Izin Amazon untuk Pipa Inferensi.

Contoh berikut menunjukkan cara menjalankan pekerjaan transformasi menggunakan Amazon SageMaker Python SDK. Dalam contoh ini, model_name adalah pipa inferensi yang menggabungkan SparkMl XGBoost dan model (dibuat dalam contoh sebelumnya). Lokasi Amazon S3 yang ditentukan oleh input_data_path berisi data input, dalam CSV format, untuk diunduh dan dikirim ke model Spark ML. Setelah pekerjaan transformasi selesai, lokasi Amazon S3 yang ditentukan oleh output_data_path berisi data keluaran yang dikembalikan oleh XGBoost model dalam CSV format.

import sagemaker input_data_path = 's3://{}/{}/{}'.format(default_bucket, 'key', 'file_name') output_data_path = 's3://{}/{}'.format(default_bucket, 'key') transform_job = sagemaker.transformer.Transformer( model_name = model_name, instance_count = 1, instance_type = 'ml.m4.xlarge', strategy = 'SingleRecord', assemble_with = 'Line', output_path = output_data_path, base_transform_job_name='inference-pipelines-batch', sagemaker_session=sagemaker.Session(), accept = CONTENT_TYPE_CSV) transform_job.transform(data = input_data_path, content_type = CONTENT_TYPE_CSV, split_type = 'Line')