Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jalankan Processing Job dengan scikit-learn
Anda dapat menggunakan Amazon SageMaker Processing untuk memproses data dan mengevaluasi model dengan skrip scikit-learn dalam image Docker yang disediakan oleh Amazon. SageMaker Berikut ini memberikan contoh tentang cara menjalankan pekerjaan Amazon SageMaker Processing menggunakan scikit-learn.
Untuk contoh buku catatan yang menunjukkan cara menjalankan skrip scikit-learn menggunakan image Docker yang disediakan dan dikelola oleh SageMaker untuk memproses data sebelumnya dan mengevaluasi model, lihat scikit-learn Processing.
Notebook ini menjalankan tugas pemrosesan menggunakan SKLearnProcessor
class dari SageMaker Python SDK untuk menjalankan skrip scikit-learn yang Anda berikan. Skrip memproses data, melatih model menggunakan pekerjaan SageMaker pelatihan, dan kemudian menjalankan pekerjaan pemrosesan untuk mengevaluasi model yang terlatih. Pekerjaan pemrosesan memperkirakan bagaimana model diharapkan untuk tampil dalam produksi.
Untuk mempelajari lebih lanjut tentang menggunakan SageMaker Python SDK dengan kontainer Processing, lihat SageMaker Python. SDK
Contoh kode berikut menunjukkan bagaimana notebook menggunakan SKLearnProcessor
untuk menjalankan skrip scikit-learn Anda sendiri menggunakan image Docker yang disediakan dan dikelola oleh SageMaker, bukan image Docker Anda sendiri.
from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )
Untuk memproses data secara paralel menggunakan Scikit-Learn di Amazon SageMaker Processing, Anda dapat memisahkan objek input dengan kunci S3 dengan menyetel s3_data_distribution_type='ShardedByS3Key'
di dalam ProcessingInput
sehingga setiap instance menerima jumlah objek input yang hampir sama.