Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Anda dapat menggunakan Amazon Comprehend untuk mendeteksi entitas PII dalam dokumen teks bahasa Inggris atau Spanyol. Entitas PII adalah jenis informasi identitas pribadi (PII) tertentu. Gunakan deteksi PII untuk menemukan entitas PII atau menyunting entitas PII dalam teks.
Topik
Temukan entitas PII
Untuk menemukan entitas PII dalam teks Anda, Anda dapat dengan cepat menganalisis satu dokumen menggunakan analisis waktu nyata. Anda juga dapat memulai pekerjaan batch asinkron pada kumpulan dokumen.
Anda dapat menggunakan konsol atau API untuk analisis real-time dari satu dokumen. Teks masukan Anda dapat mencakup hingga 100 kilobyte karakter yang dikodekan UTF-8.
Misalnya, Anda dapat mengirimkan teks masukan berikut untuk menemukan entitas PII:
Halo Paulo Santos. Pernyataan terbaru untuk akun kartu kredit Anda 1111-0000-1111-0000 dikirimkan ke 123 Any Street, Seattle, WA 98109.
Outputnya mencakup informasi bahwa “Paul Santos” memiliki tipeNAME
, “1111-0000-1111-0000" memiliki tipe, dan “123 Any Street, SeattleCREDIT_DEBIT_NUMBER
, WA 98109" memiliki tipe. ADDRESS
Amazon Comprehend mengembalikan daftar entitas PII yang terdeteksi, dengan informasi berikut untuk setiap entitas PII:
-
Skor yang memperkirakan probabilitas bahwa rentang teks yang terdeteksi adalah tipe entitas yang terdeteksi.
-
Tipe entitas PII.
-
Lokasi entitas PII dalam dokumen, ditentukan sebagai offset karakter untuk awal dan akhir entitas.
Misalnya, teks input yang disebutkan sebelumnya menghasilkan respons berikut:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
Menyunting entitas PII
Untuk menyunting entitas PII dalam teks Anda, Anda dapat menggunakan konsol atau API untuk memulai pekerjaan batch asinkron. Amazon Comprehend mengembalikan salinan teks input dengan redaksi untuk setiap entitas PII.
Misalnya, Anda dapat mengirimkan teks masukan berikut untuk menyunting entitas PII:
Halo Paulo Santos. Pernyataan terbaru untuk akun kartu kredit Anda 1111-0000-1111-0000 dikirimkan ke 123 Any Street, Seattle, WA 98109.
File output mencakup teks berikut:
Halo ***** ******. Pernyataan terbaru untuk akun kartu kredit Anda ***************** telah dikirimkan ke *** *** ************ *******.
Jenis entitas universal PII
Beberapa jenis entitas PII bersifat universal (tidak spesifik untuk masing-masing negara), seperti alamat email dan nomor kartu kredit. Amazon Comprehend mendeteksi jenis entitas PII universal berikut:
- MENEGUR
-
Alamat fisik, seperti “100 Main Street, Anytown, USA” atau “Suite #12, Building 123". Alamat dapat mencakup informasi seperti jalan, gedung, lokasi, kota, negara bagian, negara, kabupaten, kode pos, kantor polisi, dan lingkungan.
- USIA
-
Usia individu, termasuk jumlah dan satuan waktu. Misalnya, dalam frasa “Saya berusia 40 tahun,” Amazon Comprehend mengakui “40 tahun” sebagai usia.
- AWS_ACCESS_KUNCI
-
Pengidentifikasi unik yang terkait dengan kunci akses rahasia; Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani AWS permintaan terprogram secara kriptografis.
- AWS_SECRET_KUNCI
-
Pengidentifikasi unik yang terkait dengan kunci akses. Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani AWS permintaan terprogram secara kriptografis.
- CREDIT_DEBIT_CVV
-
Kode verifikasi kartu tiga digit (CVV) yang ada di VISA, MasterCard, dan Discover kartu kredit dan debit. Untuk kartu kredit atau debit American Express, CVV adalah kode numerik empat digit.
- CREDIT_DEBIT_EXPIRY
-
Tanggal kedaluwarsa untuk kartu kredit atau debit. Angka ini biasanya empat digit panjang dan sering diformat sebagai. month/year or MM/YY Amazon Comprehend mengakui tanggal kedaluwarsa seperti 01/21, 01/2021, dan Jan 2021.
- CREDIT_DEBIT_NUMBER
-
Nomor untuk kartu kredit atau debit. Angka-angka ini dapat bervariasi dari 13 hingga 16 digit panjangnya. Namun, Amazon Comprehend juga mengenali nomor kartu kredit atau debit ketika hanya empat digit terakhir yang ada.
- DATE_TIME
-
Tanggal dapat mencakup tahun, bulan, hari, hari dalam seminggu, atau waktu dalam sehari. Misalnya, Amazon Comprehend mengakui “19 Januari 2020" atau “11 pagi” sebagai tanggal. Amazon Comprehend akan mengenali sebagian tanggal, rentang tanggal, dan interval tanggal. Ini juga akan mengenali dekade, seperti “1990-an”.
- DRIVER_ID
-
Nomor yang ditetapkan untuk SIM, yang merupakan dokumen resmi yang memungkinkan seseorang untuk mengoperasikan satu atau lebih kendaraan bermotor di jalan umum. Nomor SIM terdiri dari karakter alfanumerik.
-
Alamat email, seperti marymajor@email.com.
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
Nomor Rekening Bank Internasional memiliki format khusus di setiap negara. Lihat www.iban.com/structure
. - IP_ALAMAT
-
IPv4 Alamat, seperti 198.51.100.0.
- LICENSE_PLATE
-
Plat nomor untuk kendaraan dikeluarkan oleh negara bagian atau negara tempat kendaraan terdaftar. Format untuk kendaraan penumpang biasanya lima hingga delapan digit, terdiri dari huruf besar dan angka. Formatnya bervariasi tergantung pada lokasi negara atau negara penerbit.
- ALAMAT MAC_
-
Alamat kontrol akses media (MAC) adalah pengidentifikasi unik yang ditetapkan ke pengontrol antarmuka jaringan (NIC).
- NAME
-
Nama seorang individu. Jenis entitas ini tidak termasuk gelar, seperti Dr., Mr., Mrs., atau Miss. Amazon Comprehend tidak menerapkan jenis entitas ini ke nama yang merupakan bagian dari organisasi atau alamat. Misalnya, Amazon Comprehend mengakui “John Doe Organization” sebagai sebuah organisasi, dan mengakui “Jane Doe Street” sebagai alamat.
- KATA SANDI
-
String alfanumerik yang digunakan sebagai kata sandi, seperti “*very20special #pass *”.
- TELEPON
-
Sebuah nomor telepon. Jenis entitas ini juga mencakup nomor faks dan pager.
- PIN
-
Nomor identifikasi pribadi (PIN) empat digit yang dapat digunakan untuk mengakses rekening bank Anda.
- KODE SWIFT_
-
Kode SWIFT adalah format standar Bank Identifier Code (BIC) yang digunakan untuk menentukan bank atau cabang tertentu. Bank menggunakan kode ini untuk transfer uang seperti transfer kawat internasional.
Kode SWIFT terdiri dari delapan atau 11 karakter. Kode 11 digit mengacu pada cabang tertentu, sedangkan kode delapan digit (atau kode 11 digit yang diakhiri dengan 'XXX') mengacu pada kepala atau kantor utama.
- URL
-
Alamat web, seperti www.example.com.
- NAMA PENGGUNA
-
Nama pengguna yang mengidentifikasi akun, seperti nama login, nama layar, nama panggilan, atau pegangan.
- KENDARAAN_IDENTIFICATION_NUMBER
-
Nomor Identifikasi Kendaraan (VIN) secara unik mengidentifikasi kendaraan. Konten dan format VIN didefinisikan dalam spesifikasi ISO 3779. Setiap negara memiliki kode dan format khusus untuk VINs.
Tipe entitas PII khusus negara
Beberapa jenis entitas PII bersifat spesifik negara, seperti nomor paspor dan nomor ID yang dikeluarkan pemerintah lainnya. Amazon Comprehend mendeteksi jenis entitas PII khusus negara berikut:
- CA_HEALTH_NUMBER
-
Nomor Layanan Kesehatan Kanada adalah pengenal unik 10 digit, yang diperlukan bagi individu untuk mengakses manfaat perawatan kesehatan.
- CA_SOCIAL_INSURANCE_NUMBER
-
Nomor Asuransi Sosial Kanada (SIN) adalah pengidentifikasi unik sembilan digit, yang diperlukan bagi individu untuk mengakses program dan manfaat pemerintah.
SIN diformat sebagai tiga kelompok tiga digit, seperti 123-456-789. SIN dapat divalidasi melalui proses check-digit sederhana yang disebut algoritma Luhn
. - IN_AADHAAR
-
Aadhaar India adalah nomor identifikasi unik 12 digit yang dikeluarkan oleh pemerintah India kepada penduduk India. Format Aadhaar memiliki spasi atau tanda hubung setelah digit keempat dan kedelapan.
- IN_NREGA
-
Nomor Undang-Undang Jaminan Ketenagakerjaan Pedesaan Nasional India (NREGA) terdiri dari dua huruf diikuti oleh 14 angka.
- IN_PERMANENT_ACCOUNT_NUMBER
-
Nomor Rekening Permanen India adalah nomor alfanumerik unik 10 digit yang dikeluarkan oleh Departemen Pajak Penghasilan.
- DALAM_VOTER_NUMBER
-
ID Pemilih India terdiri dari tiga huruf diikuti oleh tujuh angka.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
Nomor Layanan Kesehatan Nasional Inggris adalah nomor 10-17 digit, seperti 485 777 3456. Sistem saat ini memformat angka 10 digit dengan spasi setelah digit ketiga dan keenam. Digit terakhir adalah checksum pendeteksi kesalahan.
Format angka 17 digit memiliki spasi setelah digit ke-10 dan ke-13.
- UK_NATIONAL_INSURANCE_NUMBER
-
Nomor Asuransi Nasional Inggris (NINO) memberi individu akses ke manfaat Asuransi Nasional (jaminan sosial). Ini juga digunakan untuk beberapa tujuan dalam sistem pajak Inggris.
Jumlahnya sembilan digit panjang dan dimulai dengan dua huruf, diikuti oleh enam angka dan satu huruf. NINO dapat diformat dengan spasi atau tanda hubung setelah dua huruf dan setelah digit kedua, keempat, dan keenam.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
Referensi Wajib Pajak Unik Inggris (UTR) adalah angka 10 digit yang mengidentifikasi wajib pajak atau bisnis.
- BANK_ACCOUNT_NUMBER
-
Nomor rekening bank AS, yang biasanya panjangnya 10 hingga 12 digit. Amazon Comprehend juga mengenali nomor rekening bank ketika hanya empat digit terakhir yang ada.
- BANK_ROUTING
-
Nomor perutean rekening bank AS. Ini biasanya sembilan digit panjang, tetapi Amazon Comprehend juga mengenali nomor routing ketika hanya empat digit terakhir yang ada.
- PASSPORT_NUMBER
-
Nomor paspor AS. Nomor paspor berkisar dari enam hingga sembilan karakter alfanumerik.
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
Nomor Identifikasi Wajib Pajak Perorangan AS (ITIN) adalah angka sembilan digit yang dimulai dengan “9" dan berisi “7" atau “8" sebagai digit keempat. ITIN dapat diformat dengan spasi atau tanda hubung setelah digit ketiga dan seterusnya.
- SSN
-
Nomor Jaminan Sosial AS (SSN) adalah nomor sembilan digit yang dikeluarkan untuk warga negara AS, penduduk tetap, dan penduduk yang bekerja sementara. Amazon Comprehend juga mengenali Nomor Jaminan Sosial ketika hanya empat digit terakhir yang ada.