Untuk membuat pengidentifikasi data kustom secara terprogram, gunakan CreateCustomDataIdentifierpengoperasian Amazon Macie API. Atau, jika Anda menggunakan AWS Command Line Interface (AWS CLI), jalankan create-custom-data-identifierperintah.
Sebelum Anda membuat pengenal data kustom, kami sangat menyarankan Anda menguji dan menyempurnakan kriteria pendeteksiannya dengan data sampel. Karena pengidentifikasi data kustom digunakan oleh pekerjaan penemuan data sensitif, Anda tidak dapat mengubah pengenal data kustom setelah Anda membuatnya. Ini membantu memastikan bahwa Anda memiliki riwayat temuan data sensitif dan hasil penemuan yang tidak dapat diubah.
Untuk menguji kriteria secara terprogram, Anda dapat menggunakan TestCustomDataIdentifierpengoperasian Amazon Macie API. Operasi ini menyediakan lingkungan untuk mengevaluasi data sampel dengan kriteria deteksi. Jika Anda menggunakan AWS CLI, Anda dapat menjalankan test-custom-data-identifierperintah untuk menguji kriteria.
Saat Anda siap membuat pengenal data kustom, gunakan parameter berikut untuk menentukan kriteria pendeteksiannya:
-
regex
— Tentukan ekspresi reguler (regex) yang mendefinisikan pola teks yang cocok. Regex dapat berisi sebanyak 512 karakter.
Macie mendukung subset dari sintaks pola yang disediakan oleh perpustakaan Perl Compatible Regular Expressions (PCRE). Untuk detail dan tip tambahan, lihat Kriteria deteksi untuk pengidentifikasi data kustom.
-
keywords
— Secara opsional tentukan 1-50 urutan karakter (kata kunci) yang harus berdekatan dengan teks yang cocok dengan pola regex.
Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak kecocokan maksimum dari salah satu kata kunci ini. Setiap kata kunci dapat berisi 3-90 karakter UTF-8. Kata kunci tidak peka huruf besar atau kecil.
-
maximumMatchDistance
— Secara opsional menentukan jumlah maksimum karakter yang dapat ada antara akhir kata kunci dan akhir teks yang cocok dengan pola regex. Jika Anda menggunakan AWS CLI, gunakan maximum-match-distance
parameter untuk menentukan nilai ini.
Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak ini dari kata kunci lengkap. Jaraknya bisa 1-300 karakter. Jarak default adalah 50 karakter.
-
ignoreWords
— Secara opsional tentukan 1-10 urutan karakter (abaikan kata-kata) untuk dikecualikan dari hasil. Jika Anda menggunakan AWS CLI, gunakan ignore-words
parameter untuk menentukan urutan karakter ini.
Macie mengecualikan kejadian dari hasil jika teks cocok dengan pola regex tetapi berisi salah satu dari kata-kata abaikan ini. Setiap kata abaikan dapat berisi 4-90 karakter UTF-8. Abaikan kata peka akan huruf besar kecil.
Untuk menentukan tingkat keparahan temuan data sensitif yang dihasilkan oleh pengidentifikasi data kustom, gunakan severityLevels
parameter atau, jika Anda menggunakan AWS CLI, severity-levels
parameter:
-
Untuk secara otomatis menetapkan MEDIUM
tingkat keparahan untuk semua temuan, hilangkan parameter ini. Macie kemudian menggunakan pengaturan default. Secara default, Macie menetapkan MEDIUM
tingkat keparahan untuk temuan jika objek S3 yang terpengaruh berisi satu atau lebih kemunculan teks yang cocok dengan kriteria deteksi.
-
Untuk menetapkan tingkat keparahan berdasarkan ambang kemunculan yang Anda tentukan, tentukan jumlah minimum kecocokan yang harus ada di objek S3 untuk menghasilkan temuan dengan tingkat keparahan tertentu.
Anda dapat menentukan sebanyak tiga ambang kemunculan, satu untuk setiap tingkat keparahan yang didukung Macie: LOW
(paling parah),MEDIUM
, atau HIGH
(paling parah). Jika Anda menentukan lebih dari satu, ambang batas harus dalam urutan menaik berdasarkan tingkat keparahan, bergerak dari ke. LOW
HIGH
Jika objek S3 berisi lebih sedikit kemunculan daripada ambang terendah, Macie tidak membuat temuan.
Gunakan parameter tambahan untuk menentukan nama dan pengaturan lainnya, seperti tag, untuk pengenal data kustom. Hindari memasukkan data sensitif dalam pengaturan ini. Pengguna lain dari akun Anda mungkin dapat mengakses nilai ini, tergantung pada tindakan yang diizinkan untuk dilakukan di Macie.
Saat Anda mengirimkan permintaan Anda, Macie menguji pengaturan dan memverifikasi bahwa itu dapat mengkompilasi regex. Jika ada masalah dengan pengaturan atau regex, permintaan gagal dan Macie mengembalikan pesan yang menjelaskan masalah tersebut. Jika permintaan berhasil, Anda menerima output yang mirip dengan berikut ini:
{
"customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example"
}
Di mana customDataIdentifierId
menentukan pengenal unik (ID) untuk pengenal data kustom yang dibuat.
Untuk selanjutnya mengambil dan meninjau pengaturan untuk pengenal data kustom, gunakan GetCustomDataIdentifieroperasi atau, jika Anda menggunakan AWS CLI, jalankan perintah. get-custom-data-identifier Untuk id
parameter, tentukan ID pengenal data kustom.
Contoh berikut menunjukkan cara menggunakan AWS CLI untuk membuat pengenal data kustom. Contoh membuat pengidentifikasi data kustom yang dirancang untuk mendeteksi karyawan IDs yang menggunakan sintaks tertentu dan berada dalam jarak dekat dengan kata kunci tertentu. Contoh juga menentukan pengaturan keparahan khusus untuk temuan yang dihasilkan pengidentifikasi.
Contoh ini diformat untuk Linux, macOS, atau Unix, dan menggunakan karakter garis miring terbalik (\) untuk meningkatkan keterbacaan.
$
aws macie2 create-custom-data-identifier \
--name "EmployeeIDs
" \
--regex "[A-Z]-\d{8}
" \
--keywords '["employee","employee ID"
]' \
--maximum-match-distance 20
\
--severity-levels '[{"occurrencesThreshold":1
,"severity":"LOW
"},{"occurrencesThreshold":50
,"severity":"MEDIUM
"},{"occurrencesThreshold":100
,"severity":"HIGH
"}]' \
--description "Detects employee IDs in proximity of a keyword.
" \
--tags '{"Stack
":"Production
"}'
Contoh ini diformat untuk Microsoft Windows dan menggunakan karakter kelanjutan baris tanda sisipan (^) untuk meningkatkan keterbacaan.
C:\>
aws macie2 create-custom-data-identifier ^
--name "EmployeeIDs
" ^
--regex "[A-Z]-\d{8}
" ^
--keywords "[\"employee
\",\"employee ID
\"]" ^
--maximum-match-distance 20
^
--severity-levels "[{\"occurrencesThreshold\":1
,\"severity\":\"LOW
\"},{\"occurrencesThreshold\":50
,\"severity\":\"MEDIUM
\"},{\"occurrencesThreshold\":100
,\"severity\":\"HIGH
\"}]" ^
--description "Detects employee IDs in proximity of a keyword.
" ^
--tags={\"Stack
\":\"Production
\"}
Di mana:
-
EmployeeIDs
adalah nama pengidentifikasi data kustom.
-
[A-Z]-\d{8}
adalah regex untuk pola teks yang cocok.
-
employee
dan employee ID
merupakan kata kunci yang harus berdekatan dengan teks yang cocok dengan pola regex.
-
20
adalah jumlah maksimum karakter yang dapat ada antara akhir kata kunci dan akhir teks yang cocok dengan pola regex.
-
description
menentukan deskripsi singkat dari pengidentifikasi data kustom.
-
severity-levels
mendefinisikan ambang kemunculan kustom untuk tingkat keparahan temuan yang dihasilkan oleh pengidentifikasi data kustom: LOW
untuk 1—49 kejadian; untuk 50—99 kejadian; dan, MEDIUM
untuk 100 kejadian atau lebih. HIGH
-
Stack
adalah kunci tag dari tag yang akan ditetapkan ke pengidentifikasi data kustom. Production
adalah nilai tag untuk kunci tag yang ditentukan.