Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konfigurasikan SageMaker Clarify Processing Job
Untuk menganalisis data dan model Anda untuk bias dan penjelasan menggunakan SageMaker Clarify, Anda harus mengonfigurasi pekerjaan pemrosesan SageMaker Clarify. Panduan ini menunjukkan cara menentukan nama dataset input, nama file konfigurasi analisis, dan lokasi keluaran untuk pekerjaan pemrosesan. Untuk mengkonfigurasi wadah pemrosesan, input pekerjaan, output, sumber daya, dan parameter lainnya, Anda memiliki dua opsi. Anda dapat menggunakan SageMaker CreateProcessingJob
API, atau menggunakan SageMaker Python SDK APISageMaker ClarifyProcessor
,
Untuk informasi tentang parameter yang umum untuk semua pekerjaan pemrosesan, lihat SageMaker APIReferensi Amazon.
Petunjuk berikut menunjukkan cara menyediakan setiap bagian dari konfigurasi spesifik SageMaker Clarify menggunakan CreateProcessingJob
API.
-
Masukkan identifier penelitian seragam (URI) dari gambar kontainer SageMaker Clarify di dalam
AppSpecification
parameter, seperti yang ditunjukkan pada contoh kode berikut.{ "ImageUri": "
the-clarify-container-image-uri
" }catatan
URIHarus mengidentifikasi gambar kontainer SageMaker Clarify yang sudah dibuat sebelumnya.
ContainerEntrypoint
danContainerArguments
tidak didukung. Untuk informasi selengkapnya tentang SageMaker Clarify gambar kontainer, lihatKontainer SageMaker Klarifikasi Prebuilt. -
Tentukan konfigurasi untuk analisis dan parameter untuk kumpulan data input Anda di dalam
ProcessingInputs
parameter.-
Tentukan lokasi file konfigurasi JSON analisis, yang mencakup parameter untuk analisis bias dan analisis penjelasan.
InputName
ParameterProcessingInput
objek harusanalysis_config
seperti yang ditunjukkan pada contoh kode berikut.{ "InputName": "analysis_config", "S3Input": { "S3Uri": "
s3://your-bucket/analysis_config.json
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config
" } }Untuk informasi selengkapnya tentang skema file konfigurasi analisis, lihatFile Konfigurasi Analisis.
-
Tentukan lokasi dataset input.
InputName
ParameterProcessingInput
objek harusdataset
. Parameter ini opsional jika Anda telah menyediakan “dataset_uri” dalam file konfigurasi analisis. Nilai-nilai berikut diperlukan dalamS3Input
konfigurasi.-
S3Uri
dapat berupa objek Amazon S3 atau awalan S3. -
S3InputMode
harus dari tipeFile
. -
S3CompressionType
harus bertipeNone
(nilai default). -
S3DataDistributionType
harus bertipeFullyReplicated
(nilai default). -
S3DataType
bisa salah satuS3Prefix
atauManifestFile
. Untuk menggunakanManifestFile
,S3Uri
parameter harus menentukan lokasi file manifes yang mengikuti skema dari bagian SageMaker API Referensi S3Uri. File manifes ini harus mencantumkan objek S3 yang berisi data input untuk pekerjaan tersebut.
Kode berikut menunjukkan contoh konfigurasi input.
{ "InputName": "dataset", "S3Input": { "S3Uri": "
s3://your-bucket/your-dataset.csv
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data
" } } -
-
-
Tentukan konfigurasi untuk output dari pekerjaan pemrosesan di dalam
ProcessingOutputConfig
parameter. SatuProcessingOutput
objek diperlukan dalamOutputs
konfigurasi. Berikut ini diperlukan dari konfigurasi output:-
OutputName
harusanalysis_result
. -
S3Uri
harus menjadi awalan S3 ke lokasi output. -
S3UploadMode
harus diatur keEndOfJob
.
Kode berikut menunjukkan contoh konfigurasi output.
{ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "
s3://your-bucket/result/
", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output
" } }] } -
-
Tentukan konfigurasi
ClusterConfig
untuk sumber daya yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalamProcessingResources
parameter. Parameter berikut diperlukan di dalamClusterConfig
objek.-
InstanceCount
menentukan jumlah instance komputasi di cluster yang menjalankan pekerjaan pemrosesan. Tentukan nilai yang lebih besar dari1
untuk mengaktifkan pemrosesan terdistribusi. -
InstanceType
mengacu pada sumber daya yang menjalankan pekerjaan pemrosesan Anda. Karena SageMaker SHAP analisis intensif komputasi, menggunakan tipe instance yang dioptimalkan untuk komputasi harus meningkatkan runtime untuk analisis. Pekerjaan pemrosesan SageMaker Clarify tidak digunakanGPUs.
Kode berikut menunjukkan contoh konfigurasi sumber daya.
{ "ClusterConfig": { "InstanceCount":
1
, "InstanceType": "ml.m5.xlarge
", "VolumeSizeInGB":20
} } -
-
Tentukan konfigurasi jaringan yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam
NetworkConfig
objek. Nilai-nilai berikut diperlukan dalam konfigurasi.-
EnableNetworkIsolation
harus disetel keFalse
(default) sehingga SageMaker Clarify dapat memanggil titik akhir, jika perlu, untuk prediksi. -
Jika model atau titik akhir yang Anda berikan ke pekerjaan SageMaker Clarify berada dalam Amazon Virtual Private Cloud (AmazonVPC), maka pekerjaan SageMaker Clarify juga harus samaVPC. Tentukan VPC penggunaan VpcConfig. Selain itu, VPC harus memiliki titik akhir ke bucket, layanan SageMaker , SageMaker dan layanan Runtime Amazon S3.
Jika pemrosesan terdistribusi diaktifkan, Anda juga harus mengizinkan komunikasi antara instance yang berbeda dalam pekerjaan pemrosesan yang sama. Konfigurasikan aturan untuk grup keamanan Anda yang memungkinkan koneksi masuk antara anggota grup keamanan yang sama. Untuk informasi selengkapnya, lihat Berikan Amazon SageMaker Clarify Lowongan Akses ke Sumber Daya di Amazon Anda VPC.
Kode berikut memberikan contoh konfigurasi jaringan.
{ "EnableNetworkIsolation": False, "VpcConfig": { ... } }
-
-
Atur waktu maksimum pekerjaan akan berjalan menggunakan
StoppingCondition
parameter. Waktu terpanjang yang dapat dijalankan oleh pekerjaan SageMaker Clarify adalah7
berhari-hari atau604800
detik. Jika pekerjaan tidak dapat diselesaikan dalam batas waktu ini, itu akan dihentikan dan tidak ada hasil analisis yang akan diberikan. Sebagai contoh, konfigurasi berikut membatasi waktu maksimum pekerjaan dapat berjalan hingga 3600 detik.{ "MaxRuntimeInSeconds": 3600 }
-
Tentukan IAM peran untuk
RoleArn
parameter. Peran tersebut harus memiliki hubungan kepercayaan dengan Amazon SageMaker. Ini dapat digunakan untuk melakukan SageMaker API operasi yang tercantum dalam tabel berikut. Sebaiknya gunakan kebijakan SageMakerFullAccess terkelola Amazon, yang memberikan akses penuh ke SageMaker. Untuk informasi lebih lanjut tentang kebijakan ini, lihatAWS kebijakan terkelola: AmazonSageMakerFullAccess. Jika Anda memiliki kekhawatiran tentang pemberian akses penuh, izin minimal yang diperlukan bergantung pada apakah Anda memberikan model atau nama titik akhir. Menggunakan nama endpoint memungkinkan untuk memberikan lebih sedikit izin untuk. SageMakerTabel berikut berisi API operasi yang digunakan oleh pekerjaan pemrosesan SageMaker Clarify.
X
Di bawah Nama Model dan nama Endpoint mencatat API operasi yang diperlukan untuk setiap input.APIOperasi Nama model Nama titik akhir Untuk apa itu digunakan X
Tag pekerjaan diterapkan ke titik akhir bayangan.
X
Buat konfigurasi titik akhir menggunakan nama model yang Anda berikan
X
Buat titik akhir bayangan menggunakan konfigurasi titik akhir.
X
X
Jelaskan titik akhir untuk statusnya, titik akhir InService harus melayani permintaan.
X
X
Panggil titik akhir untuk prediksi.
Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat SageMaker APIIzin Amazon: Tindakan, Izin, dan Referensi Sumber Daya.
Untuk informasi selengkapnya tentang meneruskan peran SageMaker, lihatPeran Lulus.
Setelah Anda memiliki masing-masing bagian dari konfigurasi pekerjaan pemrosesan, gabungkan mereka untuk mengonfigurasi pekerjaan.
Contoh kode berikut menunjukkan cara meluncurkan pekerjaan pemrosesan SageMaker Clarify menggunakan AWS SDKuntuk Python
sagemaker_client.create_processing_job( ProcessingJobName="
your-clarify-job-name
", AppSpecification={ "ImageUri": "the-clarify-container-image-uri
", }, ProcessingInputs=[{ "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config
", }, }, { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data
", }, }, ], ProcessingOutputConfig={ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/
", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output
", }, }], }, ProcessingResources={ "ClusterConfig": { "InstanceCount":1
, "InstanceType": "ml.m5.xlarge
", "VolumeSizeInGB":20
, }, }, NetworkConfig={ "EnableNetworkIsolation": False, "VpcConfig": { ... }, }, StoppingCondition={ "MaxRuntimeInSeconds":3600
, }, RoleArn="arn:aws:iam::<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole
", )
Untuk contoh buku catatan dengan instruksi untuk menjalankan tugas pemrosesan SageMaker Clarify menggunakan Python, lihat Keadilan dan Keterjelasan dengan SageMaker Clarify
Anda juga dapat mengonfigurasi pekerjaan pemrosesan SageMaker Clarify menggunakan SageMaker ClarifyProcessor