Konfigurasikan SageMaker Clarify Processing Job - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasikan SageMaker Clarify Processing Job

Untuk menganalisis data dan model Anda untuk bias dan penjelasan menggunakan SageMaker Clarify, Anda harus mengonfigurasi pekerjaan pemrosesan SageMaker Clarify. Panduan ini menunjukkan cara menentukan nama dataset input, nama file konfigurasi analisis, dan lokasi keluaran untuk pekerjaan pemrosesan. Untuk mengkonfigurasi wadah pemrosesan, input pekerjaan, output, sumber daya, dan parameter lainnya, Anda memiliki dua opsi. Anda dapat menggunakan SageMaker AI CreateProcessingJob API, atau menggunakan SageMaker AI Python SDK API, SageMaker ClarifyProcessor

Untuk informasi tentang parameter yang umum untuk semua pekerjaan pemrosesan, lihat Referensi SageMaker API Amazon.

Petunjuk berikut menunjukkan cara menyediakan setiap bagian dari konfigurasi spesifik SageMaker Clarify menggunakan CreateProcessingJob API.

  1. Masukkan pengidentifikasi penelitian seragam (URI) dari gambar kontainer SageMaker Clarify di dalam AppSpecification parameter, seperti yang ditunjukkan pada contoh kode berikut.

    { "ImageUri": "the-clarify-container-image-uri" }
    catatan

    URI harus mengidentifikasi image kontainer SageMaker Clarify yang sudah dibuat sebelumnya. ContainerEntrypointdan ContainerArguments tidak didukung. Untuk informasi selengkapnya tentang SageMaker Clarify gambar kontainer, lihatKontainer SageMaker Klarifikasi Prebuilt.

  2. Tentukan konfigurasi untuk analisis dan parameter untuk kumpulan data input Anda di dalam ProcessingInputs parameter.

    1. Tentukan lokasi file konfigurasi analisis JSON, yang mencakup parameter untuk analisis bias dan analisis penjelasan. InputNameParameter ProcessingInput objek harus analysis_config seperti yang ditunjukkan pada contoh kode berikut.

      { "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config" } }

      Untuk informasi selengkapnya tentang skema file konfigurasi analisis, lihatFile Konfigurasi Analisis.

    2. Tentukan lokasi dataset input. InputNameParameter ProcessingInput objek harusdataset. Parameter ini opsional jika Anda telah menyediakan “dataset_uri” dalam file konfigurasi analisis. Nilai-nilai berikut diperlukan dalam S3Input konfigurasi.

      1. S3Uridapat berupa objek Amazon S3 atau awalan S3.

      2. S3InputModeharus dari tipeFile.

      3. S3CompressionTypeharus bertipe None (nilai default).

      4. S3DataDistributionTypeharus bertipe FullyReplicated (nilai default).

      5. S3DataTypebisa salah satu S3Prefix atauManifestFile. Untuk menggunakanManifestFile, S3Uri parameter harus menentukan lokasi file manifes yang mengikuti skema dari bagian Referensi SageMaker API S3Uri. File manifes ini harus mencantumkan objek S3 yang berisi data input untuk pekerjaan tersebut.

      Kode berikut menunjukkan contoh konfigurasi input.

      { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data" } }
  3. Tentukan konfigurasi untuk output dari pekerjaan pemrosesan di dalam ProcessingOutputConfig parameter. Satu ProcessingOutput objek diperlukan dalam Outputs konfigurasi. Berikut ini diperlukan dari konfigurasi output:

    1. OutputNameharusanalysis_result.

    2. S3Uriharus menjadi awalan S3 ke lokasi output.

    3. S3UploadMode harus diatur ke EndOfJob.

    Kode berikut menunjukkan contoh konfigurasi output.

    { "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output" } }] }
  4. Tentukan konfigurasi ClusterConfig untuk sumber daya yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam ProcessingResources parameter. Parameter berikut diperlukan di dalam ClusterConfig objek.

    1. InstanceCountmenentukan jumlah instance komputasi di cluster yang menjalankan pekerjaan pemrosesan. Tentukan nilai yang lebih besar dari 1 untuk mengaktifkan pemrosesan terdistribusi.

    2. InstanceTypemengacu pada sumber daya yang menjalankan pekerjaan pemrosesan Anda. Karena analisis SageMaker AI SHAP intensif komputasi, menggunakan jenis instance yang dioptimalkan untuk komputasi harus meningkatkan runtime untuk analisis. Pekerjaan pemrosesan SageMaker Clarify tidak digunakan GPUs.

    Kode berikut menunjukkan contoh konfigurasi sumber daya.

    { "ClusterConfig": { "InstanceCount": 1, "InstanceType": "ml.m5.xlarge", "VolumeSizeInGB": 20 } }
  5. Tentukan konfigurasi jaringan yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam NetworkConfig objek. Nilai-nilai berikut diperlukan dalam konfigurasi.

    1. EnableNetworkIsolationharus disetel ke False (default) sehingga SageMaker Clarify dapat memanggil titik akhir, jika perlu, untuk prediksi.

    2. Jika model atau titik akhir yang Anda berikan ke pekerjaan SageMaker Clarify berada dalam Amazon Virtual Private Cloud (Amazon VPC), maka pekerjaan SageMaker Clarify juga harus dalam VPC yang sama. Tentukan VPC menggunakan. VpcConfig Selain itu, VPC harus memiliki titik akhir ke bucket Amazon S3, layanan SageMaker AI, dan layanan AI Runtime. SageMaker

      Jika pemrosesan terdistribusi diaktifkan, Anda juga harus mengizinkan komunikasi antara instance yang berbeda dalam pekerjaan pemrosesan yang sama. Konfigurasikan aturan untuk grup keamanan Anda yang memungkinkan koneksi masuk antara anggota grup keamanan yang sama. Untuk informasi selengkapnya, lihat Berikan Amazon SageMaker Clarify Lowongan Akses ke Sumber Daya di Amazon VPC Anda.

    Kode berikut memberikan contoh konfigurasi jaringan.

    { "EnableNetworkIsolation": False, "VpcConfig": { ... } }
  6. Atur waktu maksimum pekerjaan akan berjalan menggunakan StoppingCondition parameter. Waktu terpanjang yang dapat dijalankan oleh pekerjaan SageMaker Clarify adalah 7 berhari-hari atau 604800 detik. Jika pekerjaan tidak dapat diselesaikan dalam batas waktu ini, itu akan dihentikan dan tidak ada hasil analisis yang akan diberikan. Sebagai contoh, konfigurasi berikut membatasi waktu maksimum pekerjaan dapat berjalan hingga 3600 detik.

    { "MaxRuntimeInSeconds": 3600 }
  7. Tentukan peran IAM untuk RoleArn parameter. Peran tersebut harus memiliki hubungan kepercayaan dengan Amazon SageMaker AI. Ini dapat digunakan untuk melakukan operasi SageMaker API yang tercantum dalam tabel berikut. Sebaiknya gunakan kebijakan terkelola Amazon SageMaker AIFull Access, yang memberikan akses penuh ke SageMaker AI. Untuk informasi lebih lanjut tentang kebijakan ini, lihatAWS kebijakan terkelola: AmazonSageMakerFullAccess. Jika Anda memiliki kekhawatiran tentang pemberian akses penuh, izin minimal yang diperlukan bergantung pada apakah Anda memberikan model atau nama titik akhir. Menggunakan nama titik akhir memungkinkan pemberian lebih sedikit izin ke AI. SageMaker

    Tabel berikut berisi operasi API yang digunakan oleh tugas pemrosesan SageMaker Clarify. XDi bawah Nama Model dan nama Endpoint mencatat operasi API yang diperlukan untuk setiap input.

    Operasi API Nama model Nama titik akhir Untuk apa itu digunakan

    ListTags

    X

    Tag pekerjaan diterapkan ke titik akhir bayangan.

    CreateEndpointConfig

    X

    Buat konfigurasi titik akhir menggunakan nama model yang Anda berikan

    CreateEndpoint

    X

    Buat titik akhir bayangan menggunakan konfigurasi titik akhir.

    DescribeEndpoint

    X

    X

    Jelaskan titik akhir untuk statusnya, titik akhir InService harus melayani permintaan.

    InvokeEndpoint

    X

    X

    Panggil titik akhir untuk prediksi.

    Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat Izin Amazon SageMaker AI API: Tindakan, Izin, dan Referensi Sumber Daya.

    Untuk informasi lebih lanjut tentang meneruskan peran ke SageMaker AI, lihatPeran Lulus.

    Setelah Anda memiliki masing-masing bagian dari konfigurasi pekerjaan pemrosesan, gabungkan mereka untuk mengonfigurasi pekerjaan.

Contoh kode berikut menunjukkan cara meluncurkan pekerjaan pemrosesan SageMaker Clarify menggunakan AWS SDK untuk Python.

sagemaker_client.create_processing_job( ProcessingJobName="your-clarify-job-name", AppSpecification={ "ImageUri": "the-clarify-container-image-uri", }, ProcessingInputs=[{ "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config", }, }, { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data", }, }, ], ProcessingOutputConfig={ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output", }, }], }, ProcessingResources={ "ClusterConfig": { "InstanceCount": 1, "InstanceType": "ml.m5.xlarge", "VolumeSizeInGB": 20, }, }, NetworkConfig={ "EnableNetworkIsolation": False, "VpcConfig": { ... }, }, StoppingCondition={ "MaxRuntimeInSeconds": 3600, }, RoleArn="arn:aws:iam::<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole", )

Untuk contoh buku catatan dengan instruksi untuk menjalankan tugas pemrosesan SageMaker Clarify menggunakan AWS SDK untuk Python, lihat Keadilan dan Keterjelasan dengan SageMaker Clarify using SDK for Python. AWS Bucket S3 apa pun yang digunakan di notebook harus berada di AWS Region yang sama dengan instance notebook yang mengaksesnya.

Anda juga dapat mengonfigurasi pekerjaan pemrosesan SageMaker Clarify menggunakan SageMaker ClarifyProcessorAPI SDK SageMaker Python. Untuk informasi selengkapnya, lihat Jalankan Pekerjaan Pemrosesan SageMaker Klarifikasi untuk Analisis Bias dan Penjelasan.