Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan status Peta dalam mode Terdistribusi untuk beban kerja paralel skala besar di Step Functions
Dengan Step Functions, Anda dapat mengatur beban kerja paralel skala besar untuk melakukan tugas, seperti pemrosesan data semi-terstruktur berdasarkan permintaan. Beban kerja paralel ini memungkinkan Anda memproses sumber data skala besar yang disimpan di Amazon S3 secara bersamaan. Misalnya, Anda dapat memproses satu JSON atau CSV file yang berisi sejumlah besar data. Atau Anda dapat memproses satu set besar objek Amazon S3.
Untuk menyiapkan beban kerja paralel skala besar dalam alur kerja Anda, sertakan Map
status dalam mode Terdistribusi. Status Peta memproses item dalam kumpulan data secara bersamaan. Map
Status yang disetel ke Distributed dikenal sebagai status Peta Terdistribusi. Dalam mode Terdistribusi, Map
status memungkinkan pemrosesan konkurensi tinggi. Dalam mode Terdistribusi, Map
status memproses item dalam kumpulan data dalam iterasi yang disebut eksekusi alur kerja anak. Anda dapat menentukan jumlah eksekusi alur kerja anak yang dapat berjalan secara paralel. Setiap eksekusi alur kerja anak memiliki riwayat eksekusi terpisah sendiri dari alur kerja induk. Jika Anda tidak menentukan, Step Functions menjalankan 10.000 eksekusi alur kerja anak paralel secara paralel.
Ilustrasi berikut menjelaskan bagaimana Anda dapat mengatur beban kerja paralel skala besar dalam alur kerja Anda.
Belajar di lokakarya
Pelajari bagaimana teknologi tanpa server seperti Step Functions dan Lambda dapat menyederhanakan pengelolaan dan penskalaan, membongkar tugas yang tidak berdiferensiasi, dan mengatasi tantangan pemrosesan data terdistribusi skala besar. Sepanjang jalan, Anda akan bekerja dengan peta terdistribusi untuk pemrosesan konkurensi tinggi. Lokakarya ini juga menyajikan praktik terbaik untuk mengoptimalkan alur kerja Anda, dan kasus penggunaan praktis untuk pemrosesan klaim, pemindaian kerentanan, dan simulasi Monte Carlo.
Dalam topik ini:
Istilah kunci
- Mode terdistribusi
-
Mode pemrosesan status Peta. Dalam mode ini, setiap iterasi
Map
status berjalan sebagai eksekusi alur kerja anak yang memungkinkan konkurensi tinggi. Setiap eksekusi alur kerja anak memiliki riwayat eksekusi sendiri, yang terpisah dari riwayat eksekusi alur kerja induk. Mode ini mendukung input pembacaan dari sumber data Amazon S3 skala besar. - Status Peta Terdistribusi
-
Status Peta diatur ke mode pemrosesan Terdistribusi.
- Alur kerja peta
Serangkaian langkah yang dijalankan oleh suatu
Map
negara.- Alur kerja orang tua
-
Alur kerja yang berisi satu atau lebih status Peta Terdistribusi.
- Eksekusi alur kerja anak
-
Iterasi dari status Peta Terdistribusi. Eksekusi alur kerja anak memiliki riwayat eksekusi sendiri, yang terpisah dari riwayat eksekusi alur kerja induk.
- Peta Jalankan
-
Saat Anda menjalankan
Map
status dalam mode Distributed, Step Functions akan membuat resource Map Run. Map Run mengacu pada sekumpulan eksekusi alur kerja anak yang memulai status Peta Terdistribusi, dan pengaturan runtime yang mengontrol eksekusi ini. Step Functions menetapkan Amazon Resource Name (ARN) ke Map Run Anda. Anda dapat memeriksa Map Run di konsol Step Functions. Anda juga dapat memanggilDescribeMapRun
API tindakan. Map Run juga memancarkan metrik ke. CloudWatchUntuk informasi selengkapnya, lihat Melihat Peta Berjalan.
Contoh definisi status Peta Terdistribusi
Gunakan Map
status dalam mode Terdistribusi saat Anda perlu mengatur beban kerja paralel skala besar yang memenuhi kombinasi kondisi berikut:
Ukuran dataset Anda melebihi 256 KB.
Riwayat peristiwa eksekusi alur kerja melebihi 25.000 entri.
Anda memerlukan konkurensi lebih dari 40 iterasi paralel.
Contoh definisi status Peta Terdistribusi berikut menentukan kumpulan data sebagai CSV file yang disimpan dalam bucket Amazon S3. Ini juga menentukan fungsi Lambda yang memproses data di setiap baris file. CSV Karena contoh ini menggunakan CSV file, itu juga menentukan lokasi header CSV kolom. Untuk melihat definisi mesin status lengkap dari contoh ini, lihat tutorial Menyalin CSV data skala besar menggunakan Peta Terdistribusi.
{
"Map": {
"Type": "Map",
"ItemReader": {
"ReaderConfig": {
"InputType": "CSV",
"CSVHeaderLocation": "FIRST_ROW"
},
"Resource": "arn:aws:states:::s3:getObject",
"Parameters": {
"Bucket": "amzn-s3-demo-bucket
",
"Key": "csv-dataset/ratings.csv
"
}
},
"ItemProcessor": {
"ProcessorConfig": {
"Mode": "DISTRIBUTED",
"ExecutionType": "EXPRESS
"
},
"StartAt": "LambdaTask",
"States": {
"LambdaTask": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"OutputPath": "$.Payload",
"Parameters": {
"Payload.$": "$",
"FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData
"
},
"End": true
}
}
},
"Label": "Map",
"End": true,
"ResultWriter": {
"Resource": "arn:aws:states:::s3:putObject",
"Parameters": {
"Bucket": "amzn-s3-demo-destination-bucket
",
"Prefix": "csvProcessJobs
"
}
}
}
}
Izin untuk menjalankan Peta Terdistribusi
Bila Anda menyertakan status Peta Terdistribusi dalam alur kerja Anda, Step Functions memerlukan izin yang sesuai untuk memungkinkan peran mesin status menjalankan StartExecution
API tindakan untuk status Peta Terdistribusi.
Contoh IAM kebijakan berikut memberikan hak istimewa paling sedikit yang diperlukan untuk peran mesin status Anda untuk menjalankan status Peta Terdistribusi.
catatan
Pastikan Anda mengganti
dengan nama mesin status tempat Anda menggunakan status Peta Terdistribusi. Misalnya, stateMachineName
arn:aws:states:
.us-east-2
:123456789012
:stateMachine:mystateMachine
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:
region
:accountID
:stateMachine:stateMachineName
" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region
:accountID
:execution:stateMachineName
:*" } ] }
Selain itu, Anda perlu memastikan bahwa Anda memiliki hak istimewa paling sedikit yang diperlukan untuk mengakses AWS sumber daya yang digunakan dalam status Peta Terdistribusi, seperti bucket Amazon S3. Untuk informasi, lihat IAMkebijakan untuk menggunakan status Peta Terdistribusi.
Bidang status Peta Terdistribusi
Untuk menggunakan status Peta Terdistribusi dalam alur kerja Anda, tentukan satu atau beberapa bidang ini. Anda menentukan bidang ini selain bidang status umum.
Type
(Wajib)-
Menetapkan jenis negara, seperti
Map
. ItemProcessor
(Wajib)-
Berisi JSON objek berikut yang menentukan mode dan definisi pemrosesan
Map
status.-
ProcessorConfig
— JSON objek yang menentukan mode untuk memproses item, dengan sub-bidang berikut:-
Mode
— SetelDISTRIBUTED
untuk menggunakanMap
status dalam mode Terdistribusi.Awas
Mode terdistribusi didukung dalam alur kerja Standar tetapi tidak didukung dalam alur kerja Express.
-
ExecutionType
- Menentukan jenis eksekusi untuk alur kerja Peta sebagai salah satu atau STANDARD. EXPRESS Anda harus memberikan bidang ini jika Anda menentukanDISTRIBUTED
untukMode
sub-bidang. Untuk informasi selengkapnya tentang jenis alur kerja, lihatMemilih jenis alur kerja di Step Functions.
-
StartAt
- Menentukan string yang menunjukkan keadaan pertama dalam alur kerja. String ini peka huruf besar/kecil dan harus cocok dengan nama salah satu objek state. Status ini berjalan pertama kali untuk setiap item dalam kumpulan data. Masukan eksekusi apa pun yang Anda berikan keMap
status akan diteruskan keStartAt
status terlebih dahulu.States
— JSON Objek yang berisi sekumpulan status yang dibatasi koma. Dalam objek ini, Anda mendefinisikanMap workflow.
-
ItemReader
-
Menentukan dataset dan lokasinya.
Map
Negara menerima data inputnya dari kumpulan data yang ditentukan.Dalam mode Terdistribusi, Anda dapat menggunakan JSON payload yang diteruskan dari status sebelumnya atau sumber data Amazon S3 skala besar sebagai kumpulan data. Untuk informasi selengkapnya, lihat ItemReader (Peta).
ItemsPath
(Opsional)-
Menentukan jalur referensi menggunakan JsonPath
sintaks untuk memilih JSON node yang berisi array item di dalam input negara. Dalam mode Terdistribusi, Anda menentukan bidang ini hanya ketika Anda menggunakan JSON array dari langkah sebelumnya sebagai input status Anda. Untuk informasi selengkapnya, lihat ItemsPath (Peta).
ItemSelector
(Opsional)-
Mengganti nilai item kumpulan data individu sebelum diteruskan ke setiap
Map
iterasi status.Di bidang ini, Anda menentukan JSON input valid yang berisi kumpulan pasangan kunci-nilai. Pasangan ini dapat berupa nilai statis yang Anda tentukan dalam definisi mesin status Anda, nilai yang dipilih dari input status menggunakan jalur, atau nilai yang diakses dari objek konteks. Untuk informasi selengkapnya, lihat ItemSelector (Peta).
ItemBatcher
(Opsional)-
Menentukan untuk memproses item dataset dalam batch. Setiap eksekusi alur kerja anak kemudian menerima batch item ini sebagai input. Untuk informasi selengkapnya, lihat ItemBatcher (Peta).
MaxConcurrency
(Opsional)-
Menentukan jumlah eksekusi alur kerja anak yang dapat berjalan secara paralel. Penerjemah hanya mengizinkan hingga jumlah eksekusi alur kerja anak paralel yang ditentukan. Jika Anda tidak menentukan nilai konkurensi atau menyetelnya ke nol, Step Functions tidak membatasi konkurensi dan menjalankan 10.000 eksekusi alur kerja anak paralel.
catatan
Meskipun Anda dapat menentukan batas konkurensi yang lebih tinggi untuk eksekusi alur kerja anak paralel, sebaiknya Anda tidak melebihi kapasitas hilir AWS layanan, seperti AWS Lambda.
MaxConcurrencyPath
(Opsional)-
Jika Anda ingin memberikan nilai konkurensi maksimum secara dinamis dari input status menggunakan jalur referensi, gunakan.
MaxConcurrencyPath
Ketika diselesaikan, jalur referensi harus memilih bidang yang nilainya adalah bilangan bulat non-negatif.catatan
Suatu
Map
negara tidak dapat mencakup keduanyaMaxConcurrency
danMaxConcurrencyPath
. ToleratedFailurePercentage
(Opsional)-
Mendefinisikan persentase item gagal untuk ditoleransi dalam Map Run. Map Run secara otomatis gagal jika melebihi persentase ini. Step Functions menghitung persentase item yang gagal sebagai hasil dari jumlah total item yang gagal atau habis waktu dibagi dengan jumlah item. Anda harus menentukan nilai antara nol dan 100. Untuk informasi selengkapnya, lihat Menyetel ambang kegagalan untuk status Peta Terdistribusi di Step Functions.
ToleratedFailurePercentagePath
(Opsional)-
Jika Anda ingin memberikan nilai persentase kegagalan yang ditoleransi secara dinamis dari input status menggunakan jalur referensi, gunakan.
ToleratedFailurePercentagePath
Ketika diselesaikan, jalur referensi harus memilih bidang yang nilainya antara nol dan 100. ToleratedFailureCount
(Opsional)-
Mendefinisikan jumlah item gagal untuk ditoleransi dalam Map Run. Map Run secara otomatis gagal jika melebihi angka ini. Untuk informasi selengkapnya, lihat Menyetel ambang kegagalan untuk status Peta Terdistribusi di Step Functions.
ToleratedFailureCountPath
(Opsional)-
Jika Anda ingin memberikan nilai hitungan kegagalan yang ditoleransi secara dinamis dari input status menggunakan jalur referensi, gunakan.
ToleratedFailureCountPath
Ketika diselesaikan, jalur referensi harus memilih bidang yang nilainya adalah bilangan bulat non-negatif. Label
(Opsional)-
String yang secara unik mengidentifikasi keadaan.
Map
Untuk setiap Map Run, Step Functions menambahkan label ke Map RunARN. Berikut ini adalah contoh Map Run ARN dengan label kustom bernamademoLabel
:arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b
Jika Anda tidak menentukan label, Step Functions secara otomatis menghasilkan label unik.
catatan
Label tidak boleh melebihi 40 karakter, harus unik dalam definisi mesin status, dan tidak dapat berisi salah satu karakter berikut:
-
Spasi putih
-
Karakter wildcard (
? *
) -
Karakter tanda kurung (
< > { } [ ]
) -
Karakter khusus (
: ; , \ | ^ ~ $ # % & ` "
) -
Karakter kontrol (
\\u0000
-\\u001f
atau\\u007f
-\\u009f
).
Step Functions menerima nama untuk mesin negara, eksekusi, aktivitas, dan label yang berisi ASCII non-karakter. Karena karakter seperti itu tidak akan berfungsi dengan Amazon CloudWatch, kami sarankan hanya menggunakan ASCII karakter sehingga Anda dapat melacak metrik. CloudWatch
-
ResultWriter
(Opsional)-
Menentukan lokasi Amazon S3 tempat Step Functions menulis semua hasil eksekusi alur kerja anak.
Step Functions menggabungkan semua data eksekusi alur kerja anak, seperti input dan output eksekusiARN, dan status eksekusi. Kemudian mengekspor eksekusi dengan status yang sama ke file masing-masing di lokasi Amazon S3 yang ditentukan. Untuk informasi selengkapnya, lihat ResultWriter (Peta).
Jika Anda tidak mengekspor hasil
Map
status, ia mengembalikan array dari semua hasil eksekusi alur kerja anak. Sebagai contoh:[1, 2, 3, 4, 5]
ResultPath
(Opsional)-
Menentukan di mana dalam input untuk menempatkan output dari iterasi. Input kemudian disaring seperti yang ditentukan oleh OutputPathbidang jika ada, sebelum diteruskan sebagai output negara. Untuk informasi selengkapnya, lihat Pemrosesan Input dan Output.
ResultSelector
(Opsional)-
Lewati kumpulan pasangan kunci-nilai, di mana nilainya statis atau dipilih dari hasilnya. Untuk informasi selengkapnya, lihat ResultSelector.
Tip
Jika status Paralel atau Peta yang Anda gunakan di mesin status Anda mengembalikan array array, Anda dapat mengubahnya menjadi array datar dengan ResultSelector bidang. Untuk informasi selengkapnya, lihat Meratakan array array.
Retry
(Opsional)-
Array objek, yang disebut Retriers, yang mendefinisikan kebijakan coba lagi. Eksekusi menggunakan kebijakan coba lagi jika status mengalami error runtime. Untuk informasi selengkapnya, lihat Nyatakan contoh mesin menggunakan Coba Ulang dan menggunakan Catch.
catatan
Jika Anda mendefinisikan Retrier untuk status Peta Terdistribusi, kebijakan coba lagi berlaku untuk semua eksekusi alur kerja anak yang dimulai status.
Map
Misalnya, bayangkanMap
negara Anda memulai tiga eksekusi alur kerja anak, yang satu gagal. Ketika kegagalan terjadi, eksekusi menggunakanRetry
bidang, jika ditentukan, untukMap
negara. Kebijakan coba lagi berlaku untuk semua eksekusi alur kerja anak dan bukan hanya eksekusi yang gagal. Jika satu atau beberapa eksekusi alur kerja anak gagal, Map Run gagal.Saat Anda mencoba lagi
Map
status, itu membuat Map Run baru. Catch
(Opsional)-
Array objek, disebut Catch yang menentukan status fallback. Step Functions menggunakan Catchers yang didefinisikan
Catch
jika status mengalami kesalahan runtime. Ketika terjadi kesalahan, eksekusi pertama menggunakan retrier apa pun yang ditentukan dalamRetry
. Jika kebijakan coba ulang tidak ditentukan atau habis, eksekusi menggunakan Catchers, jika ditentukan. Untuk informasi selengkapnya, lihat Status Fallback.
Menyetel ambang kegagalan untuk status Peta Terdistribusi di Step Functions
Saat Anda mengatur beban kerja paralel skala besar, Anda juga dapat menentukan ambang kegagalan yang ditoleransi. Nilai ini memungkinkan Anda menentukan jumlah maksimum, atau persentase, item gagal sebagai ambang kegagalan untuk Map Run. Bergantung pada nilai yang Anda tentukan, Map Run Anda gagal secara otomatis jika melebihi ambang batas. Jika Anda menentukan kedua nilai, alur kerja gagal ketika melebihi salah satu nilai.
Menentukan ambang batas membantu Anda gagal dalam jumlah item tertentu sebelum seluruh Map Run gagal. Step Functions mengembalikan States.ExceedToleratedFailureThreshold
kesalahan ketika Map Run gagal karena ambang batas yang ditentukan terlampaui.
catatan
Step Functions dapat terus menjalankan alur kerja turunan di Map Run bahkan setelah ambang kegagalan yang ditoleransi terlampaui, tetapi sebelum Map Run gagal.
Untuk menentukan nilai ambang batas di Workflow Studio, pilih Setel ambang kegagalan yang ditoleransi dalam Konfigurasi tambahan di bawah bidang Pengaturan waktu proses.
- Persentase kegagalan yang ditoleransi
-
Mendefinisikan persentase item yang gagal untuk ditoleransi. Map Run Anda gagal jika nilai ini terlampaui. Step Functions menghitung persentase item yang gagal sebagai hasil dari jumlah total item yang gagal atau habis waktu dibagi dengan jumlah item. Anda harus menentukan nilai antara nol dan 100. Nilai persentase default adalah nol, yang berarti alur kerja gagal jika salah satu eksekusi alur kerja turunannya gagal atau habis waktu. Jika Anda menentukan persentase sebagai 100, alur kerja tidak akan gagal meskipun semua eksekusi alur kerja anak gagal.
Atau, Anda dapat menentukan persentase sebagai jalur referensi ke pasangan kunci-nilai yang ada di masukan status Peta Terdistribusi Anda. Jalur ini harus menyelesaikan ke bilangan bulat positif antara 0 dan 100 saat runtime. Anda menentukan jalur referensi di
ToleratedFailurePercentagePath
sub-bidang.Misalnya, diberikan input berikut:
{
"percentage":
15
}Anda dapat menentukan persentase menggunakan jalur referensi ke input tersebut sebagai berikut:
{ ... "Map": { "Type": "Map", ...
"ToleratedFailurePercentagePath":
"$.percentage"
... } }penting
Anda dapat menentukan salah satu
ToleratedFailurePercentage
atauToleratedFailurePercentagePath
, tetapi tidak keduanya dalam definisi status Peta Terdistribusi Anda. - Jumlah kegagalan yang ditoleransi
-
Mendefinisikan jumlah item yang gagal untuk ditoleransi. Map Run Anda gagal jika nilai ini terlampaui.
Atau, Anda dapat menentukan hitungan sebagai jalur referensi ke pasangan kunci-nilai yang ada di masukan status Peta Terdistribusi Anda. Jalur ini harus menyelesaikan ke bilangan bulat positif saat runtime. Anda menentukan jalur referensi di
ToleratedFailureCountPath
sub-bidang.Misalnya, diberikan input berikut:
{
"count"
:10
}Anda dapat menentukan nomor menggunakan jalur referensi ke input tersebut sebagai berikut:
{ ... "Map": { "Type": "Map", ...
"ToleratedFailureCountPath"
:"$.count"
... } }penting
Anda dapat menentukan salah satu
ToleratedFailureCount
atauToleratedFailureCountPath
, tetapi tidak keduanya dalam definisi status Peta Terdistribusi Anda.
Pelajari lebih lanjut tentang peta terdistribusi
Untuk terus mempelajari lebih lanjut tentang status Peta Terdistribusi, lihat sumber daya berikut:
-
Pengolahan input dan output
Untuk mengonfigurasi input yang diterima status Peta Terdistribusi dan output yang dihasilkannya, Step Functions menyediakan bidang berikut:
Selain bidang ini, Step Functions juga memberi Anda kemampuan untuk menentukan ambang kegagalan yang ditoleransi untuk Peta Terdistribusi. Nilai ini memungkinkan Anda menentukan jumlah maksimum, atau persentase, item gagal sebagai ambang kegagalan untuk Map Run. Untuk informasi selengkapnya tentang mengonfigurasi ambang kegagalan yang ditoleransi, lihat. Menyetel ambang kegagalan untuk status Peta Terdistribusi di Step Functions
-
Menggunakan status Peta Terdistribusi
Lihat tutorial dan contoh proyek berikut untuk memulai menggunakan status Peta Terdistribusi.
-
Periksa eksekusi status Peta Terdistribusi
Konsol Step Functions menyediakan halaman Map Run Details, yang menampilkan semua informasi yang terkait dengan eksekusi status Peta Terdistribusi. Untuk informasi tentang cara memeriksa informasi yang ditampilkan di halaman ini, lihatMelihat Peta Berjalan.