Membuat pengidentifikasi data kustom

Pengenal data kustom adalah sekumpulan kriteria yang Anda tentukan untuk mendeteksi data sensitif di objek Amazon Simple Storage Service (Amazon S3). Saat membuat pengenal data kustom, Anda menentukan ekspresi reguler (regex) yang mendefinisikan pola teks agar sesuai dengan objek S3. Anda juga dapat menentukan urutan karakter dan aturan kedekatan yang menyempurnakan hasil. Urutan karakter dapat berupa: kata kunci, yang merupakan kata atau frasa yang harus berdekatan dengan teks yang cocok dengan regex, atau mengabaikan kata-kata, yang merupakan kata atau frasa untuk dikecualikan dari hasil. Dengan menggunakan pengenal data khusus, Anda dapat melengkapi pengidentifikasi data terkelola yang disediakan Amazon Macie, dan mendeteksi data sensitif yang mencerminkan skenario, kekayaan intelektual, atau data hak milik organisasi Anda.

Misalnya, banyak perusahaan memiliki sintaks khusus untuk karyawan IDs. Salah satu sintaks tersebut mungkin: huruf kapital yang menunjukkan apakah seorang karyawan adalah karyawan penuh waktu (F) atau paruh waktu (P), diikuti oleh tanda hubung (-), diikuti dengan urutan delapan digit yang mengidentifikasi karyawan. Contohnya adalah: F — 12345678 untuk karyawan penuh waktu, dan P—87654321 untuk karyawan paruh waktu. Untuk mendeteksi karyawan IDs yang menggunakan sintaks ini, Anda dapat membuat pengenal data kustom yang menentukan regex berikut:. [A-Z]-\d{8} Untuk menyempurnakan analisis dan menghindari kesalahan positif, Anda juga dapat mengonfigurasi pengenal untuk menggunakan kata kunci (employeedanemployee ID) dan jarak pencocokan maksimum 20 karakter. Dengan kriteria ini, hasil termasuk teks yang cocok dengan regex jika teks terjadi setelah karyawan kata kunci atau ID karyawan dan semua teks terjadi dalam 20 karakter dari salah satu kata kunci tersebut.

Untuk demonstrasi bagaimana kata kunci dapat membantu Anda menemukan data sensitif dan menghindari positif palsu, tonton video berikut:

Selain kriteria deteksi, Anda dapat secara opsional menentukan pengaturan tingkat keparahan khusus untuk temuan yang dihasilkan oleh pengenal data kustom. Tingkat keparahan dapat didasarkan pada jumlah kemunculan teks yang cocok dengan kriteria deteksi pengenal. Jika Anda tidak menentukan pengaturan ini, Macie secara otomatis menetapkan tingkat keparahan Medium untuk semua temuan yang dihasilkan pengenal. Tingkat keparahan tidak berubah berdasarkan jumlah kemunculan teks yang cocok dengan kriteria deteksi pengenal.

Untuk informasi rinci tentang pengaturan ini dan lainnya, lihatOpsi konfigurasi untuk pengidentifikasi data kustom.

Untuk membuat pengenal data kustom

Anda dapat membuat pengenal data kustom dengan menggunakan konsol Amazon Macie atau Amazon Macie API.

Console

Ikuti langkah-langkah ini untuk membuat pengenal data kustom menggunakan konsol Amazon Macie.

Untuk membuat pengenal data kustom

Buka konsol Amazon Macie di. https://console.aws.amazon.com/macie/
Di panel navigasi, di bawah Pengaturan, pilih Pengidentifikasi data kustom.
Pilih Buat.
Untuk Nama, masukkan nama untuk pengidentifikasi data kustom. Nama dapat berisi sebanyak 128 karakter.
Untuk Deskripsi, secara opsional masukkan deskripsi singkat pengenal data kustom. Deskripsi dapat berisi sebanyak 512 karakter.

catatan
Hindari memasukkan data sensitif dalam nama atau deskripsi pengenal data kustom. Pengguna lain dari akun Anda mungkin dapat mengakses nama atau deskripsi, tergantung pada tindakan yang diizinkan mereka lakukan di Macie.
Untuk Regular expression, masukkan ekspresi reguler (regex) yang mendefinisikan pola teks agar sesuai. Regex dapat berisi sebanyak 512 karakter.

Macie mendukung subset dari sintaks pola yang disediakan oleh perpustakaan Perl Compatible Regular Expressions (PCRE). Untuk detail dan tip tambahan, lihat Kriteria deteksi untuk pengidentifikasi data kustom.
Untuk Kata Kunci, secara opsional masukkan sebanyak 50 urutan karakter (dipisahkan dengan koma) untuk menentukan teks tertentu yang harus berada di dekat teks yang cocok dengan pola regex.

Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak kecocokan maksimum dari salah satu kata kunci ini. Setiap kata kunci dapat berisi 3-90 karakter UTF-8. Kata kunci tidak peka huruf besar atau kecil.
Untuk kata Abaikan, secara opsional masukkan sebanyak 10 urutan karakter (dipisahkan dengan koma) yang menentukan teks tertentu untuk dikecualikan dari hasil.

Macie mengecualikan kejadian dari hasil jika teks cocok dengan pola regex tetapi berisi salah satu dari kata-kata abaikan ini. Setiap kata abaikan dapat berisi 4-90 karakter UTF-8. Abaikan kata peka akan huruf besar kecil.
Untuk jarak pencocokan maksimum, secara opsional masukkan jumlah maksimum karakter yang dapat ada antara akhir kata kunci dan akhir teks yang cocok dengan pola regex.

Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak ini dari kata kunci lengkap. Jaraknya bisa 1-300 karakter. Jarak default adalah 50 karakter.
Untuk Keparahan, pilih cara menentukan tingkat keparahan temuan data sensitif yang dihasilkan oleh pengidentifikasi data kustom:
- Untuk secara otomatis menetapkan tingkat keparahan Sedang ke semua temuan, pilih Gunakan tingkat keparahan Sedang untuk sejumlah kecocokan (default). Dengan opsi ini, Macie secara otomatis menetapkan tingkat keparahan Medium ke temuan jika objek S3 yang terpengaruh berisi satu atau lebih kemunculan teks yang cocok dengan kriteria deteksi.
- Untuk menetapkan tingkat keparahan berdasarkan ambang kemunculan yang Anda tentukan, pilih Gunakan setelan khusus untuk menentukan tingkat keparahan. Kemudian gunakan opsi ambang Kemunculan dan tingkat keparahan untuk menentukan jumlah minimum kecocokan yang harus ada di objek S3 untuk menghasilkan temuan dengan tingkat keparahan yang dipilih.
  
  Anda dapat menentukan sebanyak tiga ambang kemunculan, satu untuk setiap tingkat keparahan yang didukung Macie: Rendah (paling parah), Sedang, atau Tinggi (paling parah). Jika Anda menentukan lebih dari satu, ambang batas harus dalam urutan menaik berdasarkan tingkat keparahan, bergerak dari Rendah ke Tinggi. Jika objek S3 berisi lebih sedikit kemunculan daripada ambang terendah, Macie tidak membuat temuan.
(Opsional) Untuk Tag, pilih Tambahkan tag, lalu masukkan sebanyak 50 tag untuk ditetapkan ke pengenal data khusus.

Tag adalah label yang Anda tentukan dan tetapkan ke jenis AWS sumber daya tertentu. Setiap tanda terdiri dari kunci tanda yang diperlukan dan nilai tanda opsional. Tag dapat membantu Anda mengidentifikasi, mengategorikan, dan mengelola sumber daya dengan cara yang berbeda-beda, seperti berdasarkan tujuan, pemilik, lingkungan, atau kriteria lainnya. Untuk mempelajari selengkapnya, lihat Menandai sumber daya Macie.
(Opsional) Untuk Mengevaluasi, masukkan hingga 1.000 karakter di kotak Data sampel, lalu pilih Uji untuk menguji kriteria deteksi. Macie mengevaluasi data sampel dan melaporkan jumlah kemunculan teks yang sesuai dengan kriteria. Anda dapat mengulangi langkah ini sebanyak yang Anda suka untuk memperbaiki dan mengoptimalkan kriteria.

catatan
Kami sangat menyarankan Anda menguji dan menyempurnakan kriteria deteksi dengan data sampel. Karena pengidentifikasi data kustom digunakan oleh pekerjaan penemuan data sensitif, Anda tidak dapat mengubah pengenal data kustom setelah Anda membuatnya. Dengan begitu Anda akan memiliki riwayat temuan data sensitif dan hasil penemuan yang tetap.
Karena Macie menerapkan logika tambahan saat memproses catatan terstruktur, jumlah kecocokan yang dikembalikan oleh kotak Evaluasi mungkin berbeda dalam kasus tertentu dari hasil yang dihasilkan oleh pekerjaan.
Setelah selesai, spilih Kirim.

Macie menguji pengaturan dan memverifikasi bahwa ia dapat mengkompilasi regex. Jika ada masalah dengan pengaturan atau regex, Macie menampilkan kesalahan yang menjelaskan masalah tersebut. Setelah mengatasi masalah apa pun, Anda dapat menyimpan pengenal data khusus.

API

Untuk membuat pengidentifikasi data kustom secara terprogram, gunakan CreateCustomDataIdentifierpengoperasian Amazon Macie API. Atau, jika Anda menggunakan AWS Command Line Interface (AWS CLI), jalankan create-custom-data-identifierperintah.

catatan

Sebelum Anda membuat pengenal data kustom, kami sangat menyarankan Anda menguji dan menyempurnakan kriteria pendeteksiannya dengan data sampel. Karena pengidentifikasi data kustom digunakan oleh pekerjaan penemuan data sensitif, Anda tidak dapat mengubah pengenal data kustom setelah Anda membuatnya. Dengan begitu Anda akan memiliki riwayat temuan data sensitif dan hasil penemuan yang tetap.

Untuk menguji kriteria secara terprogram, Anda dapat menggunakan TestCustomDataIdentifierpengoperasian Amazon Macie API. Operasi ini menyediakan lingkungan untuk mengevaluasi data sampel dengan kriteria deteksi. Jika Anda menggunakan AWS CLI, Anda dapat menjalankan test-custom-data-identifierperintah untuk menguji kriteria.

Saat Anda siap membuat pengenal data kustom, gunakan parameter berikut untuk menentukan kriteria pendeteksiannya:

regex— Tentukan ekspresi reguler (regex) yang mendefinisikan pola teks yang cocok. Regex dapat berisi sebanyak 512 karakter.

Macie mendukung subset dari sintaks pola yang disediakan oleh perpustakaan Perl Compatible Regular Expressions (PCRE). Untuk detail dan tip tambahan, lihat Kriteria deteksi untuk pengidentifikasi data kustom.
keywords— Secara opsional tentukan 1-50 urutan karakter (kata kunci) yang harus berdekatan dengan teks yang cocok dengan pola regex.

Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak kecocokan maksimum dari salah satu kata kunci ini. Setiap kata kunci dapat berisi 3-90 karakter UTF-8. Kata kunci tidak peka huruf besar atau kecil.
maximumMatchDistance— Secara opsional menentukan jumlah maksimum karakter yang dapat ada antara akhir kata kunci dan akhir teks yang cocok dengan pola regex. Jika Anda menggunakan AWS CLI, gunakan maximum-match-distance parameter untuk menentukan nilai ini.

Macie menyertakan kejadian dalam hasil hanya jika teks cocok dengan pola regex dan teks berada dalam jarak ini dari kata kunci lengkap. Jaraknya bisa 1-300 karakter. Jarak default adalah 50 karakter.
ignoreWords— Secara opsional tentukan 1-10 urutan karakter (abaikan kata-kata) untuk dikecualikan dari hasil. Jika Anda menggunakan AWS CLI, gunakan ignore-words parameter untuk menentukan urutan karakter ini.

Macie mengecualikan kejadian dari hasil jika teks cocok dengan pola regex tetapi berisi salah satu dari kata-kata abaikan ini. Setiap kata abaikan dapat berisi 4-90 karakter UTF-8. Abaikan kata peka akan huruf besar kecil.

Untuk menentukan tingkat keparahan temuan data sensitif yang dihasilkan oleh pengidentifikasi data kustom, gunakan severityLevels parameter atau, jika Anda menggunakan AWS CLI, severity-levels parameter:

Untuk secara otomatis menetapkan MEDIUM tingkat keparahan untuk semua temuan, hilangkan parameter ini. Macie kemudian menggunakan pengaturan default. Secara default, Macie menetapkan MEDIUM tingkat keparahan untuk temuan jika objek S3 yang terpengaruh berisi satu atau lebih kemunculan teks yang cocok dengan kriteria deteksi.
Untuk menetapkan tingkat keparahan berdasarkan ambang kemunculan yang Anda tentukan, tentukan jumlah minimum kecocokan yang harus ada di objek S3 untuk menghasilkan temuan dengan tingkat keparahan tertentu.

Anda dapat menentukan sebanyak tiga ambang kemunculan, satu untuk setiap tingkat keparahan yang didukung Macie: LOW (paling parah),MEDIUM, atau HIGH (paling parah). Jika Anda menentukan lebih dari satu, ambang batas harus dalam urutan menaik berdasarkan tingkat keparahan, bergerak dari ke. LOW HIGH Jika objek S3 berisi lebih sedikit kemunculan daripada ambang terendah, Macie tidak membuat temuan.

Gunakan parameter tambahan untuk menentukan nama dan pengaturan lainnya, seperti tag, untuk pengenal data kustom. Hindari memasukkan data sensitif dalam pengaturan ini. Pengguna lain dari akun Anda mungkin dapat mengakses nilai ini, tergantung pada tindakan yang diizinkan untuk dilakukan di Macie.

Saat Anda mengirimkan permintaan Anda, Macie menguji pengaturan dan memverifikasi bahwa itu dapat mengkompilasi regex. Jika ada masalah dengan pengaturan atau regex, permintaan gagal dan Macie mengembalikan pesan yang menjelaskan masalah tersebut. Jika permintaan berhasil, Anda menerima output yang mirip dengan berikut ini:


{
    "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example"
}

Di mana customDataIdentifierId menentukan pengenal unik (ID) untuk pengenal data kustom yang dibuat.

Untuk selanjutnya mengambil dan meninjau pengaturan untuk pengenal data kustom, gunakan GetCustomDataIdentifieroperasi atau, jika Anda menggunakan AWS CLI, jalankan perintah. get-custom-data-identifier Untuk id parameter, tentukan ID pengenal data kustom.

Contoh berikut menunjukkan cara menggunakan AWS CLI untuk membuat pengenal data kustom. Contoh membuat pengidentifikasi data kustom yang dirancang untuk mendeteksi karyawan IDs yang menggunakan sintaks tertentu dan berada dalam jarak dekat dengan kata kunci tertentu. Contoh juga menentukan pengaturan keparahan khusus untuk temuan yang dihasilkan pengidentifikasi.

Contoh ini diformat untuk Linux, macOS, atau Unix, dan menggunakan karakter garis miring terbalik (\) untuk meningkatkan keterbacaan.


$ aws macie2 create-custom-data-identifier \
--name "EmployeeIDs" \
--regex "[A-Z]-\d{8}" \
--keywords '["employee","employee ID"]' \
--maximum-match-distance 20 \
--severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \
--description "Detects employee IDs in proximity of a keyword." \
--tags '{"Stack":"Production"}'

Contoh ini diformat untuk Microsoft Windows dan menggunakan karakter kelanjutan baris tanda sisipan (^) untuk meningkatkan keterbacaan.


C:\> aws macie2 create-custom-data-identifier ^
--name "EmployeeIDs" ^
--regex "[A-Z]-\d{8}" ^
--keywords "[\"employee\",\"employee ID\"]" ^
--maximum-match-distance 20 ^
--severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^
--description "Detects employee IDs in proximity of a keyword." ^
--tags={\"Stack\":\"Production\"}

Di mana:

EmployeeIDsadalah nama pengidentifikasi data kustom.
[A-Z]-\d{8}adalah regex untuk pola teks yang cocok.
employeedan employee ID merupakan kata kunci yang harus berdekatan dengan teks yang cocok dengan pola regex.
20adalah jumlah maksimum karakter yang dapat ada antara akhir kata kunci dan akhir teks yang cocok dengan pola regex.
descriptionmenentukan deskripsi singkat dari pengidentifikasi data kustom.
severity-levelsmendefinisikan ambang kemunculan kustom untuk tingkat keparahan temuan yang dihasilkan oleh pengidentifikasi data kustom: LOW untuk 1—49 kejadian; untuk 50—99 kejadian; dan, MEDIUM untuk 100 kejadian atau lebih. HIGH
Stackadalah kunci tag dari tag yang akan ditetapkan ke pengidentifikasi data kustom. Productionadalah nilai tag untuk kunci tag yang ditentukan.

Setelah membuat pengenal data kustom, Anda dapat membuat dan mengonfigurasi pekerjaan penemuan data sensitif untuk menggunakannya, atau menambahkannya ke pengaturan untuk penemuan data sensitif otomatis.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Opsi konfigurasi untuk pengidentifikasi data kustom

Menghapus pengenal data kustom