Ikhtisar: Jalankan pekerjaan pemrosesan menggunakan ScriptProcessor dan wadah SageMaker geospasial - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar: Jalankan pekerjaan pemrosesan menggunakan ScriptProcessor dan wadah SageMaker geospasial

SageMaker geospasial menyediakan wadah pemrosesan yang dibangun khusus,. 081189585635.dkr.ecr.us-west-2.amazonaws.com/sagemaker-geospatial-v1-0:latest Anda dapat menggunakan wadah ini saat menjalankan pekerjaan dengan Amazon SageMaker Processing. Saat Anda membuat instance ScriptProcessorkelas yang tersedia melalui Amazon SageMaker Python SDK for Processing, tentukan ini. image_uri

catatan

Jika Anda menerima ResourceLimitExceededkesalahan saat mencoba memulai pekerjaan pemrosesan, Anda perlu meminta peningkatan kuota. Untuk memulai permintaan peningkatan kuota Service Quotas, lihat Meminta peningkatan kuota pada Panduan Pengguna Service Quotas

Prasyarat untuk menggunakan ScriptProcessor
  1. Anda telah menciptakan Python skrip yang menentukan beban kerja MS geospasial Anda.

  2. Anda telah memberikan akses peran SageMaker eksekusi ke bucket Amazon S3 apa pun yang diperlukan.

  3. Siapkan data Anda untuk diimpor ke dalam wadah. Pekerjaan Amazon SageMaker Processing mendukung pengaturan s3_data_type sama dengan "ManifestFile" atau ke"S3Prefix".

Prosedur berikut menunjukkan cara membuat instance ScriptProcessor dan mengirimkan pekerjaan Amazon SageMaker Processing menggunakan wadah SageMaker geospasial.

Untuk membuat ScriptProcessor instance dan mengirimkan pekerjaan Amazon SageMaker Processing menggunakan wadah SageMaker geospasial
  1. Buat instance ScriptProcessor kelas menggunakan gambar SageMaker geospasial:

    from sagemaker.processing import ScriptProcessor, ProcessingInput, ProcessingOutput sm_session = sagemaker.session.Session() execution_role_arn = sagemaker.get_execution_role() # purpose-built geospatial container image_uri = '081189585635.dkr.ecr.us-west-2.amazonaws.com/sagemaker-geospatial-v1-0:latest' script_processor = ScriptProcessor( command=['python3'], image_uri=image_uri, role=execution_role_arn, instance_count=4, instance_type='ml.m5.4xlarge', sagemaker_session=sm_session )

    Ganti execution_role_arn dengan peran SageMaker eksekusi yang memiliki akses ke data input yang disimpan di Amazon S3 dan AWS layanan lain yang ingin Anda panggil dalam pekerjaan pemrosesan Anda. ARN Anda dapat memperbarui instance_count dan instance_type untuk mencocokkan persyaratan pekerjaan pemrosesan Anda.

  2. Untuk memulai pekerjaan pemrosesan, gunakan .run() metode ini:

    # Can be replaced with any S3 compliant string for the name of the folder. s3_folder = geospatial-data-analysis # Use .default_bucket() to get the name of the S3 bucket associated with your current SageMaker session s3_bucket = sm_session.default_bucket() s3_manifest_uri = f's3://{s3_bucket}/{s3_folder}/manifest.json' s3_prefix_uri = f's3://{s3_bucket}/{s3_folder}/image-prefix script_processor.run( code='preprocessing.py', inputs=[ ProcessingInput( source=s3_manifest_uri | s3_prefix_uri , destination='/opt/ml/processing/input_data/', s3_data_type= "ManifestFile" | "S3Prefix", s3_data_distribution_type= "ShardedByS3Key" | "FullyReplicated" ) ], outputs=[ ProcessingOutput( source='/opt/ml/processing/output_data/', destination=s3_output_prefix_url ) ] )
    • Ganti preprocessing.py dengan nama skrip pemrosesan data Python Anda sendiri.

    • Pekerjaan pemrosesan mendukung dua metode untuk memformat data input Anda. Anda dapat membuat file manifes yang menunjuk ke semua data input untuk pekerjaan pemrosesan Anda, atau Anda dapat menggunakan awalan umum pada setiap input data individual. Jika Anda membuat set file manifes s3_manifest_uri sama dengan"ManifestFile". Jika Anda menggunakan awalan file yang disetel s3_manifest_uri sama dengan"S3Prefix". Anda menentukan jalur ke data Anda menggunakansource.

    • Anda dapat mendistribusikan data pekerjaan pemrosesan Anda dengan dua cara:

      • Mendistribusikan data Anda ke semua instance pemrosesan dengan menyetel s3_data_distribution_type sama denganFullyReplicated.

      • Mendistribusikan data Anda dalam pecahan berdasarkan kunci Amazon S3 dengan s3_data_distribution_type menyetel sama dengan. ShardedByS3Key Bila Anda menggunakan ShardedByS3Key satu pecahan data dikirim ke setiap instance pemrosesan.

    Anda dapat menggunakan skrip untuk memproses data SageMaker geospasial. Skrip itu dapat ditemukan di Langkah 3: Menulis skrip yang dapat menghitung NDVI. Untuk mempelajari lebih lanjut tentang .run() API operasi, lihat rundi Amazon SageMaker Python SDK for Processing.

Untuk memantau kemajuan pekerjaan pemrosesan Anda, ProcessingJobs kelas mendukung describemetode. Metode ini mengembalikan respon dari DescribeProcessingJob API panggilan. Untuk mempelajari lebih lanjut, lihat DescribeProcessingJobdi SageMaker APIReferensi Amazon.

Topik berikutnya menunjukkan cara membuat instance ScriptProcessor kelas menggunakan wadah SageMaker geospasial, dan kemudian bagaimana menggunakannya untuk menghitung Normalized Difference Vegetation Index () NDVI dengan Sentinel-2 gambar.