Konfigurasikan SageMaker Clarify Processing Job - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasikan SageMaker Clarify Processing Job

Untuk menganalisis data dan model Anda untuk bias dan penjelasan menggunakan SageMaker Clarify, Anda harus mengonfigurasi pekerjaan pemrosesan SageMaker Clarify. Panduan ini menunjukkan cara menentukan nama dataset input, nama file konfigurasi analisis, dan lokasi keluaran untuk pekerjaan pemrosesan. Untuk mengkonfigurasi wadah pemrosesan, input pekerjaan, output, sumber daya, dan parameter lainnya, Anda memiliki dua opsi. Anda dapat menggunakan SageMaker CreateProcessingJobAPI, atau menggunakan SageMaker Python SDK APISageMaker ClarifyProcessor,

Untuk informasi tentang parameter yang umum untuk semua pekerjaan pemrosesan, lihat SageMaker APIReferensi Amazon.

Petunjuk berikut menunjukkan cara menyediakan setiap bagian dari konfigurasi spesifik SageMaker Clarify menggunakan CreateProcessingJobAPI.

  1. Masukkan identifier penelitian seragam (URI) dari gambar kontainer SageMaker Clarify di dalam AppSpecification parameter, seperti yang ditunjukkan pada contoh kode berikut.

    { "ImageUri": "the-clarify-container-image-uri" }
    catatan

    URIHarus mengidentifikasi gambar kontainer SageMaker Clarify yang sudah dibuat sebelumnya. ContainerEntrypointdan ContainerArguments tidak didukung. Untuk informasi selengkapnya tentang SageMaker Clarify gambar kontainer, lihatKontainer SageMaker Klarifikasi Prebuilt.

  2. Tentukan konfigurasi untuk analisis dan parameter untuk kumpulan data input Anda di dalam ProcessingInputs parameter.

    1. Tentukan lokasi file konfigurasi JSON analisis, yang mencakup parameter untuk analisis bias dan analisis penjelasan. InputNameParameter ProcessingInput objek harus analysis_config seperti yang ditunjukkan pada contoh kode berikut.

      { "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config" } }

      Untuk informasi selengkapnya tentang skema file konfigurasi analisis, lihatFile Konfigurasi Analisis.

    2. Tentukan lokasi dataset input. InputNameParameter ProcessingInput objek harusdataset. Parameter ini opsional jika Anda telah menyediakan “dataset_uri” dalam file konfigurasi analisis. Nilai-nilai berikut diperlukan dalam S3Input konfigurasi.

      1. S3Uridapat berupa objek Amazon S3 atau awalan S3.

      2. S3InputModeharus dari tipeFile.

      3. S3CompressionTypeharus bertipe None (nilai default).

      4. S3DataDistributionTypeharus bertipe FullyReplicated (nilai default).

      5. S3DataTypebisa salah satu S3Prefix atauManifestFile. Untuk menggunakanManifestFile, S3Uri parameter harus menentukan lokasi file manifes yang mengikuti skema dari bagian SageMaker API Referensi S3Uri. File manifes ini harus mencantumkan objek S3 yang berisi data input untuk pekerjaan tersebut.

      Kode berikut menunjukkan contoh konfigurasi input.

      { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data" } }
  3. Tentukan konfigurasi untuk output dari pekerjaan pemrosesan di dalam ProcessingOutputConfig parameter. Satu ProcessingOutput objek diperlukan dalam Outputs konfigurasi. Berikut ini diperlukan dari konfigurasi output:

    1. OutputNameharusanalysis_result.

    2. S3Uriharus menjadi awalan S3 ke lokasi output.

    3. S3UploadMode harus diatur ke EndOfJob.

    Kode berikut menunjukkan contoh konfigurasi output.

    { "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output" } }] }
  4. Tentukan konfigurasi ClusterConfig untuk sumber daya yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam ProcessingResources parameter. Parameter berikut diperlukan di dalam ClusterConfig objek.

    1. InstanceCountmenentukan jumlah instance komputasi di cluster yang menjalankan pekerjaan pemrosesan. Tentukan nilai yang lebih besar dari 1 untuk mengaktifkan pemrosesan terdistribusi.

    2. InstanceTypemengacu pada sumber daya yang menjalankan pekerjaan pemrosesan Anda. Karena SageMaker SHAP analisis intensif komputasi, menggunakan tipe instance yang dioptimalkan untuk komputasi harus meningkatkan runtime untuk analisis. Pekerjaan pemrosesan SageMaker Clarify tidak digunakanGPUs.

    Kode berikut menunjukkan contoh konfigurasi sumber daya.

    { "ClusterConfig": { "InstanceCount": 1, "InstanceType": "ml.m5.xlarge", "VolumeSizeInGB": 20 } }
  5. Tentukan konfigurasi jaringan yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam NetworkConfig objek. Nilai-nilai berikut diperlukan dalam konfigurasi.

    1. EnableNetworkIsolationharus disetel ke False (default) sehingga SageMaker Clarify dapat memanggil titik akhir, jika perlu, untuk prediksi.

    2. Jika model atau titik akhir yang Anda berikan ke pekerjaan SageMaker Clarify berada dalam Amazon Virtual Private Cloud (AmazonVPC), maka pekerjaan SageMaker Clarify juga harus samaVPC. Tentukan VPC penggunaan VpcConfig. Selain itu, VPC harus memiliki titik akhir ke bucket, layanan SageMaker , SageMaker dan layanan Runtime Amazon S3.

      Jika pemrosesan terdistribusi diaktifkan, Anda juga harus mengizinkan komunikasi antara instance yang berbeda dalam pekerjaan pemrosesan yang sama. Konfigurasikan aturan untuk grup keamanan Anda yang memungkinkan koneksi masuk antara anggota grup keamanan yang sama. Untuk informasi selengkapnya, lihat Berikan Amazon SageMaker Clarify Lowongan Akses ke Sumber Daya di Amazon Anda VPC.

    Kode berikut memberikan contoh konfigurasi jaringan.

    { "EnableNetworkIsolation": False, "VpcConfig": { ... } }
  6. Atur waktu maksimum pekerjaan akan berjalan menggunakan StoppingCondition parameter. Waktu terpanjang yang dapat dijalankan oleh pekerjaan SageMaker Clarify adalah 7 berhari-hari atau 604800 detik. Jika pekerjaan tidak dapat diselesaikan dalam batas waktu ini, itu akan dihentikan dan tidak ada hasil analisis yang akan diberikan. Sebagai contoh, konfigurasi berikut membatasi waktu maksimum pekerjaan dapat berjalan hingga 3600 detik.

    { "MaxRuntimeInSeconds": 3600 }
  7. Tentukan IAM peran untuk RoleArn parameter. Peran tersebut harus memiliki hubungan kepercayaan dengan Amazon SageMaker. Ini dapat digunakan untuk melakukan SageMaker API operasi yang tercantum dalam tabel berikut. Sebaiknya gunakan kebijakan SageMakerFullAccess terkelola Amazon, yang memberikan akses penuh ke SageMaker. Untuk informasi lebih lanjut tentang kebijakan ini, lihatAWS kebijakan terkelola: AmazonSageMakerFullAccess. Jika Anda memiliki kekhawatiran tentang pemberian akses penuh, izin minimal yang diperlukan bergantung pada apakah Anda memberikan model atau nama titik akhir. Menggunakan nama endpoint memungkinkan untuk memberikan lebih sedikit izin untuk. SageMaker

    Tabel berikut berisi API operasi yang digunakan oleh pekerjaan pemrosesan SageMaker Clarify. XDi bawah Nama Model dan nama Endpoint mencatat API operasi yang diperlukan untuk setiap input.

    APIOperasi Nama model Nama titik akhir Untuk apa itu digunakan

    ListTags

    X

    Tag pekerjaan diterapkan ke titik akhir bayangan.

    CreateEndpointConfig

    X

    Buat konfigurasi titik akhir menggunakan nama model yang Anda berikan

    CreateEndpoint

    X

    Buat titik akhir bayangan menggunakan konfigurasi titik akhir.

    DescribeEndpoint

    X

    X

    Jelaskan titik akhir untuk statusnya, titik akhir InService harus melayani permintaan.

    InvokeEndpoint

    X

    X

    Panggil titik akhir untuk prediksi.

    Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat SageMaker APIIzin Amazon: Tindakan, Izin, dan Referensi Sumber Daya.

    Untuk informasi selengkapnya tentang meneruskan peran SageMaker, lihatPeran Lulus.

    Setelah Anda memiliki masing-masing bagian dari konfigurasi pekerjaan pemrosesan, gabungkan mereka untuk mengonfigurasi pekerjaan.

Contoh kode berikut menunjukkan cara meluncurkan pekerjaan pemrosesan SageMaker Clarify menggunakan AWS SDKuntuk Python.

sagemaker_client.create_processing_job( ProcessingJobName="your-clarify-job-name", AppSpecification={ "ImageUri": "the-clarify-container-image-uri", }, ProcessingInputs=[{ "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config", }, }, { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data", }, }, ], ProcessingOutputConfig={ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output", }, }], }, ProcessingResources={ "ClusterConfig": { "InstanceCount": 1, "InstanceType": "ml.m5.xlarge", "VolumeSizeInGB": 20, }, }, NetworkConfig={ "EnableNetworkIsolation": False, "VpcConfig": { ... }, }, StoppingCondition={ "MaxRuntimeInSeconds": 3600, }, RoleArn="arn:aws:iam::<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole", )

Untuk contoh buku catatan dengan instruksi untuk menjalankan tugas pemrosesan SageMaker Clarify menggunakan Python, lihat Keadilan dan Keterjelasan dengan SageMaker Clarify using AWS SDK for Python. AWS SDK Bucket S3 apa pun yang digunakan di notebook harus berada di AWS Region yang sama dengan instance notebook yang mengaksesnya.

Anda juga dapat mengonfigurasi pekerjaan pemrosesan SageMaker Clarify menggunakan SageMaker ClarifyProcessordi SageMaker Python SDKAPI. Untuk informasi selengkapnya, lihat Jalankan Pekerjaan Pemrosesan SageMaker Klarifikasi untuk Analisis Bias dan Penjelasan.