Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Opsi konfigurasi untuk pengidentifikasi data kustom
Dengan menggunakan pengidentifikasi data khusus, Anda dapat menentukan kriteria khusus untuk mendeteksi data sensitif di objek Amazon Simple Storage Service (Amazon S3). Anda dapat melengkapi pengidentifikasi data terkelola yang disediakan Amazon Macie, dan mendeteksi data sensitif yang mencerminkan skenario, kekayaan intelektual, atau data hak milik organisasi Anda.
Setiap pengidentifikasi data khusus menentukan kriteria deteksi dan, secara opsional, pengaturan keparahan untuk temuan yang dihasilkan pengenal. Kriteria deteksi menentukan ekspresi reguler yang mendefinisikan pola teks untuk dicocokkan dalam objek S3. Kriteria juga dapat menentukan urutan karakter dan aturan kedekatan yang menyempurnakan hasil. Pengaturan keparahan menentukan tingkat keparahan mana yang akan ditetapkan untuk temuan. Tingkat keparahan dapat didasarkan pada jumlah kemunculan teks yang cocok dengan kriteria deteksi pengenal.
Kriteria deteksi
Saat membuat pengenal data kustom, Anda menentukan ekspresi reguler (regex) yang mendefinisikan pola teks agar cocok. Anda juga dapat menentukan urutan karakter, seperti kata dan frasa, dan aturan kedekatan yang menyempurnakan hasil. Urutan karakter dapat berupa: kata kunci, yang merupakan kata atau frasa yang harus berdekatan dengan teks yang cocok dengan regex, atau mengabaikan kata-kata, yang merupakan kata atau frasa untuk dikecualikan dari hasil.
Untuk regex, Amazon Macie mendukung subset sintaks pola yang disediakan oleh library Perl Compatible Regular Expressions
-
Backreferences
-
Mengambil grup
-
Pola bersyarat
-
Kode sematan
-
Pola bendera global, seperti
/i
,/m
, dan/x
-
Pola rekursif
-
Asersi lebar nol lookbehind dan lookahead positif dan negatif, seperti
?=
,?!
,?<=
, dan?<!
Regex dapat berisi sebanyak 512 karakter.
Untuk membuat pola regex yang efektif untuk pengenal data kustom, perhatikan tips dan rekomendasi berikut:
-
Gunakan jangkar (
^
atau$
) hanya jika Anda mengharapkan pola muncul di awal atau akhir file, bukan awal atau akhir baris. -
Untuk alasan kinerja, Macie membatasi ukuran grup berulang yang dibatasi. Misalnya,
\d{100,1000}
tidak akan dikompilasi di Macie. Untuk memperkirakan fungsionalitas ini, Anda dapat menggunakan open ended repeat seperti\d{100,}
. -
Untuk membuat bagian pola tidak peka huruf besar/kecil, Anda dapat menggunakan
(?i)
konstruksi alih-alih bendera./i
-
Tidak perlu mengoptimalkan awalan atau pergantian secara manual. Misalnya, mengubah
/hello|hi|hey/
menjadi/h(?:ello|i|ey)/
tidak akan meningkatkan performa. -
Untuk alasan kinerja, Macie membatasi jumlah wildcard berulang. Misalnya,
a*b*a*
tidak akan dikompilasi di Macie.
Untuk melindungi dari ekspresi yang salah bentuk atau berjalan lama, Macie secara otomatis menguji pola regex terhadap kumpulan teks sampel saat Anda membuat pengenal data kustom. Jika ada masalah dengan regex, Macie mengembalikan kesalahan yang menjelaskan masalah tersebut.
Selain regex, Anda dapat secara opsional menentukan urutan karakter dan aturan kedekatan untuk menyempurnakan hasil.
- Kata kunci
-
Ini adalah urutan karakter tertentu yang harus berada di dekat teks yang cocok dengan pola regex. Persyaratan jarak bervariasi berdasarkan format penyimpanan objek S3 atau tipe file:
-
Data kolumnar terstruktur — Macie menyertakan hasil jika teks cocok dengan pola regex dan kata kunci dalam nama bidang atau kolom yang menyimpan teks, atau teks didahului oleh dan dalam jarak pencocokan maksimum kata kunci di bidang atau nilai sel yang sama. Ini adalah kasus untuk buku kerja, CSV file, dan TSV file Microsoft Excel.
-
Data berbasis rekaman terstruktur — Macie menyertakan hasil jika teks cocok dengan pola regex dan teks berada dalam jarak kecocokan maksimum kata kunci. Kata kunci dapat dalam nama elemen di jalur ke bidang atau array yang menyimpan teks, atau dapat mendahului dan menjadi bagian dari nilai yang sama di bidang atau array yang menyimpan teks. Ini adalah kasus untuk wadah objek Apache Avro, file Apache Parquet, file, dan file JSON Lines. JSON
-
Data tidak terstruktur — Macie menyertakan hasil jika teks cocok dengan pola regex dan teks didahului oleh dan dalam jarak pencocokan maksimum kata kunci. Ini adalah kasus untuk file Adobe Portable Document Format, dokumen Microsoft Word, pesan email, dan file teks non-biner selainCSV,JSON, JSON Garis, dan TSV file. Termasuk data terstruktur, seperti tabel, dalam tipe file ini.
Anda dapat menentukan sebanyak 50 kata kunci. Setiap kata kunci dapat berisi 3-90 UTF -8 karakter. Kata kunci tidak peka huruf besar atau kecil.
-
- Jarak pertandingan maksimum
-
Ini adalah aturan kedekatan berbasis karakter untuk kata kunci. Macie menggunakan pengaturan ini untuk menentukan apakah kata kunci mendahului teks yang cocok dengan pola regex. Pengaturan mendefinisikan jumlah maksimum karakter yang dapat ada antara akhir kata kunci lengkap dan akhir teks yang cocok dengan pola regex. Macie menyertakan hasil jika teks:
-
Cocokkan dengan pola regex,
-
Terjadi setelah setidaknya satu kata kunci lengkap, dan
-
Terjadi dalam jarak yang ditentukan dari kata kunci.
Jika tidak, Macie mengecualikan teks dari hasil.
Anda dapat menentukan jarak sebanyak 1–300 karakter. Jarak default adalah 50 karakter. Untuk hasil terbaik, jarak ini harus lebih besar dari jumlah minimum karakter teks yang dirancang untuk dideteksi oleh regex. Jika hanya sebagian teks yang berada dalam jarak kecocokan maksimum kata kunci, Macie tidak memasukkannya ke dalam hasil.
-
- Abaikan kata-kata
-
Kata yang diabaikan adalah urutan karakter tertentu yang dikecualikan dari hasil pencarian. Jika teks cocok dengan pola regex tetapi berisi kata abaikan, Macie tidak memasukkannya ke dalam hasil.
Anda dapat menentukan sebanyak 10 kata yang diabaikan. Setiap kata abaikan dapat berisi 4-90 UTF -8 karakter. Abaikan kata peka akan huruf besar kecil.
catatan
Kami sangat menyarankan Anda menguji dan menyempurnakan kriteria deteksi sebelum menyimpan pengenal data kustom. Karena pengidentifikasi data kustom digunakan oleh tugas penemuan data sensitif, Anda tidak dapat mengedit pengidentifikasi data kustom setelah menyimpannya. Hal ini membantu untuk memastikan bahwa Anda memiliki riwayat tetap temuan dan hasil penemuan data sensitif untuk audit privasi dan perlindungan data atau investigasi yang Anda lakukan.
Anda dapat menguji kriteria deteksi dengan menggunakan konsol Amazon Macie atau Amazon Macie. API Untuk menguji kriteria menggunakan konsol, gunakan opsi di bagian Evaluasi saat Anda membuat pengenal data kustom. Untuk menguji kriteria secara terprogram, gunakan TestCustomDataIdentifierpengoperasian Amazon Macie. API
Untuk demonstrasi bagaimana kata kunci dapat membantu Anda menemukan data sensitif dan menghindari positif palsu, tonton video berikut:
Pengaturan keparahan untuk temuan
Saat membuat pengenal data kustom, Anda juga dapat menentukan setelan tingkat keparahan khusus untuk temuan data sensitif yang dihasilkan pengenal. Secara default, Amazon Macie menetapkan tingkat keparahan Medium untuk semua temuan yang dihasilkan oleh pengenal data kustom. Jika objek S3 berisi setidaknya satu kemunculan teks yang cocok dengan kriteria deteksi, Macie secara otomatis menetapkan tingkat keparahan Medium ke temuan yang dihasilkan.
Dengan pengaturan tingkat keparahan khusus, Anda menentukan tingkat keparahan yang akan ditetapkan berdasarkan jumlah kemunculan teks yang cocok dengan kriteria deteksi. Anda dapat menentukan ambang kemunculan untuk sebanyak tiga tingkat keparahan: Rendah (paling parah), Sedang, dan Tinggi (paling parah). Ambang kemunculan adalah jumlah minimum kecocokan yang harus ada dalam objek S3 untuk menghasilkan temuan dengan tingkat keparahan yang ditentukan. Jika Anda menentukan lebih dari satu ambang batas, ambang batas harus dalam urutan menaik berdasarkan tingkat keparahan, bergerak dari Rendah ke Tinggi.
Misalnya, gambar berikut menunjukkan pengaturan tingkat keparahan yang menentukan tiga ambang kemunculan, satu untuk setiap tingkat keparahan yang didukung Macie.
Tabel berikut menunjukkan tingkat keparahan temuan yang dihasilkan oleh pengidentifikasi data kustom.
Ambang batas kejadian | Tingkat kepelikan | Hasil |
---|---|---|
1 | Rendah | Jika objek S3 berisi 1-49 kemunculan teks yang cocok dengan kriteria deteksi, tingkat keparahan temuan yang dihasilkan adalah Rendah. |
50 | Sedang | Jika objek S3 berisi 50—99 kemunculan teks yang cocok dengan kriteria deteksi, tingkat keparahan temuan yang dihasilkan adalah Medium. |
100 | Tinggi | Jika objek S3 berisi 100 atau lebih kemunculan teks yang cocok dengan kriteria deteksi, tingkat keparahan temuan yang dihasilkan adalah Tinggi. |
Anda juga dapat menggunakan pengaturan tingkat keparahan untuk menentukan apakah akan membuat temuan sama sekali. Jika objek S3 berisi lebih sedikit kemunculan daripada ambang kemunculan terendah, Macie tidak membuat temuan.