Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilevamento delle entità PII
Puoi usare Amazon Comprehend per rilevare PIIentità in documenti di testo in inglese o spagnolo. Un'PIIentità è un tipo specifico di informazioni di identificazione personale ()PII. Utilizzate il PII rilevamento per individuare le PII entità o oscurarle PII nel testo.
Argomenti
Individua PII le entità
Per individuare le PII entità nel testo, è possibile analizzare rapidamente un singolo documento utilizzando l'analisi in tempo reale. È inoltre possibile avviare un processo batch asincrono su una raccolta di documenti.
È possibile utilizzare la console o API per l'analisi in tempo reale di un singolo documento. Il testo di input può includere fino a 100 kilobyte di UTF -8 caratteri codificati.
Ad esempio, puoi inviare il seguente testo di input per individuare le entità: PII
Salve Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.
L'output include le informazioni che «Paul Santos» ha il tipo, «1111-0000-1111-0000" ha il tipo e «123 Any StreetNAME
, Seattle, WA 98109" ha il tipo. CREDIT_DEBIT_NUMBER
ADDRESS
Amazon Comprehend restituisce un elenco di PII entità rilevate, con le seguenti informazioni per ciascuna PII entità:
-
Un punteggio che stima la probabilità che l'intervallo di testo rilevato sia il tipo di entità rilevato.
-
Il tipo di PII entità.
-
La posizione dell'PIIentità nel documento, specificata come offset di caratteri per l'inizio e la fine dell'entità.
Ad esempio, il testo di input menzionato in precedenza produce la seguente risposta:
{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }
Redigi le entità PII
Per oscurare le PII entità nel testo, puoi utilizzare la console o API avviare un processo batch asincrono. Amazon Comprehend restituisce una copia del testo di input con redazioni per ogni entità. PII
Ad esempio, puoi inviare il seguente testo di input per oscurare le entità: PII
Buongiorno Paulo Santos. L'ultimo estratto conto relativo al conto della tua carta di credito 1111-0000-1111-0000 è stato inviato per posta a 123 Any Street, Seattle, WA 98109.
Il file di output include il testo seguente:
Salve ***** ******. L'ultimo estratto conto relativo al conto della tua carta di credito ***************** è stato inviato per posta a *** ********* ******** *****.
PIItipi di entità universali
Alcuni tipi di PII entità sono universali (non specifici per i singoli paesi), come gli indirizzi e-mail e i numeri di carte di credito. Amazon Comprehend rileva i seguenti tipi di entità universali: PII
- ADDRESS
-
Un indirizzo fisico, ad esempio «100 Main Street, AnytownUSA» o «Suite #12, Building 123". Un indirizzo può includere informazioni come la via, l'edificio, l'ubicazione, la città, lo stato, il paese, la contea, il codice postale, il distretto e il quartiere.
- AGE
-
L'età di un individuo, inclusa la quantità e l'unità di tempo. Ad esempio, nella frase «Ho 40 anni», Amazon Comprehend riconosce «40 anni» come età.
- AWS_ACCESS_KEY
-
Un identificatore univoco associato a una chiave di accesso segreta; utilizzi l'ID della chiave di accesso e la chiave di accesso segreta per firmare le richieste AWS programmatiche in modo crittografico.
- AWS_SECRET_KEY
-
Un identificatore univoco associato a una chiave di accesso. L'ID della chiave di accesso e la chiave di accesso segreta vengono utilizzati per firmare crittograficamente AWS le richieste programmatiche.
- CREDIT_DEBIT_CVV
-
Un codice di verifica della carta a tre cifre (CVV) presente sulle carte di credito e di debito Discover e su VISA Discover. MasterCard Per le carte di credito o di debito American Express, CVV è un codice numerico a quattro cifre.
- CREDIT_DEBIT_EXPIRY
-
Data di scadenza della carta di credito o della carta di debito. Questo numero è in genere composto da quattro cifre ed è spesso formattato come. month/year or MM/YY Amazon Comprehend riconosce date di scadenza come 21/01/2021, 01/2021 e gennaio 2021.
- CREDIT_DEBIT_NUMBER
-
Numeri di carta di credito o di debito. La lunghezza di questi numeri può variare da 13 a 16 cifre. Tuttavia, Amazon Comprehend riconosce i numeri delle carte di credito o di debito anche quando sono presenti solo le ultime quattro cifre.
- DATE_TIME
-
Una data può includere un anno, un mese, un giorno, un giorno della settimana o un'ora del giorno. Ad esempio, Amazon Comprehend riconosce come date «19 gennaio 2020" o «11:00». Amazon Comprehend riconoscerà date parziali, intervalli di date e intervalli di date. Riconoscerà anche decenni, come «gli anni '90".
- DRIVER_ID
-
Il numero assegnato alla patente di guida, che è un documento ufficiale che consente a una persona di guidare uno o più veicoli motorizzati su una strada pubblica. Il numero della patente di guida è composto da caratteri alfanumerici.
-
Un indirizzo e-mail, ad esempio marymajor@email.com.
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
Un numero di conto bancario internazionale ha formati specifici in ogni paese. Vedi www.iban.com/structure
. - IP_ ADDRESS
-
Un IPv4 indirizzo, ad esempio 198.51.100.0.
- LICENSE_PLATE
-
La targa di un veicolo viene emessa dallo stato o dal paese in cui il veicolo è immatricolato. Il formato per i veicoli passeggeri è in genere da cinque a otto cifre, composto da lettere maiuscole e numeri. Il formato varia a seconda dell'ubicazione dello stato o del paese di emissione.
- MAC_ADDRESS
-
Un indirizzo Media Access Control (MAC) è un identificatore univoco assegnato a un controller di interfaccia di rete ()NIC.
- NAME
-
Il nome di una persona. Questo tipo di entità non include titoli come Dr., Mr., Mrs. o Miss. Amazon Comprehend non applica questo tipo di entità a nomi che fanno parte di organizzazioni o indirizzi. Ad esempio, Amazon Comprehend riconosce la «John Doe Organization» come organizzazione e riconosce «Jane Doe Street» come indirizzo.
- PASSWORD
-
Una stringa alfanumerica utilizzata come password, ad esempio «*very20special #pass *».
- PHONE
-
Un numero di telefono. Questo tipo di entità include anche numeri di fax e cercapersone.
- PIN
-
Un numero di identificazione personale a quattro cifre (PIN) con cui puoi accedere al tuo conto bancario.
- SWIFT_CODE
-
Un SWIFT codice è un formato standard di Bank Identifier Code (BIC) utilizzato per specificare una particolare banca o filiale. Le banche utilizzano questi codici per i trasferimenti di denaro, come i bonifici internazionali.
SWIFTi codici sono composti da otto o 11 caratteri. I codici a 11 cifre si riferiscono a filiali specifiche, mentre i codici a otto cifre (o codici a 11 cifre che terminano con «XXX») si riferiscono alla sede centrale o principale.
- URL
-
Un indirizzo Web, ad esempio www.example.com.
- USERNAME
-
Un nome utente che identifica un account, ad esempio un nome di accesso, uno screen name, un soprannome o un handle.
- VEHICLE_IDENTIFICATION_NUMBER
-
Un numero di identificazione del veicolo (VIN) identifica in modo univoco un veicolo. VINil contenuto e il formato sono definiti nella specifica ISO 3779. Ogni paese ha codici e formati specifici perVINs.
Tipi di entità specifici per paese PII
Alcuni tipi di PII entità sono specifici del paese, come i numeri di passaporto e altri numeri di identità emessi dal governo. Amazon Comprehend rileva i seguenti tipi di entità specifiche per paese: PII
- HEALTHCA_ _ NUMBER
-
Un Canadian Health Service Number è un identificatore univoco di 10 cifre, necessario per consentire alle persone di accedere alle prestazioni sanitarie.
- CA_ _ _ SOCIAL INSURANCE NUMBER
-
Il Canadian Social Insurance Number (SIN) è un identificativo univoco a nove cifre, necessario per consentire alle persone di accedere ai programmi e ai benefici governativi.
SINÈ formattato come tre gruppi di tre cifre, ad esempio 123-456-789. A SIN può essere convalidato tramite un semplice processo con cifre di controllo chiamato algoritmo di Luhn.
- IN_ AADHAAR
-
Un Aadhaar indiano è un numero di identificazione univoco di 12 cifre rilasciato dal governo indiano ai residenti dell'India. Il formato Aadhaar presenta uno spazio o un trattino dopo la quarta e l'ottava cifra.
- IN_ NREGA
-
Un numero dell'Indian National Rural Employment Guarantee Act (NREGA) è composto da due lettere seguite da 14 numeri.
- IN_ _ PERMANENT _ ACCOUNT NUMBER
-
Un numero di conto permanente indiano è un numero alfanumerico univoco di 10 cifre emesso dal Dipartimento delle imposte sul reddito.
- IN_ _ VOTER NUMBER
-
Un ID elettorale indiano è composto da tre lettere seguite da sette numeri.
- Regno Unito_ NATIONAL _ _ HEALTH SERVICE NUMBER
-
Il National Health Service Number del Regno Unito è un numero di 10-17 cifre, ad esempio 485 777 3456. Il sistema attuale formatta il numero a 10 cifre con spazi dopo la terza e la sesta cifra. L'ultima cifra è un checksum che rileva gli errori.
Il formato numerico a 17 cifre presenta degli spazi dopo la decima e la tredicesima cifra.
- NATIONALINSURANCEUK_ _ _ NUMBER
-
Il National Insurance Number del Regno Unito (NINO) consente alle persone di accedere alle prestazioni della National Insurance (previdenza sociale). Viene utilizzato anche per alcuni scopi nel sistema fiscale del Regno Unito.
Il numero è composto da nove cifre e inizia con due lettere, seguite da sei numeri e una lettera. A NINO può essere formattato con uno spazio o un trattino dopo le due lettere e dopo la seconda, la quarta e la sesta cifra.
- Regno Unito_ _ _ UNIQUE TAXPAYER REFERENCE NUMBER
-
Un codice di riferimento fiscale unico del Regno Unito (UTR) è un numero di 10 cifre che identifica un contribuente o un'azienda.
- BANK_ACCOUNT_NUMBER
-
Un numero di conto bancario statunitense, che in genere è composto da 10 a 12 cifre. Amazon Comprehend riconosce anche i numeri di conto bancario quando sono presenti solo le ultime quattro cifre.
- BANK_ROUTING
-
Numero di routing del conto bancario statunitense. In genere sono composti da nove cifre, ma Amazon Comprehend riconosce i numeri di routing anche quando sono presenti solo le ultime quattro cifre.
- PASSPORT_NUMBER
-
Un numero di passaporto statunitense. I numeri dei passaporti vanno da sei a nove caratteri alfanumerici.
- US_ _ _ INDIVIDUAL TAX IDENTIFICATION NUMBER
-
Un codice identificativo del contribuente individuale statunitense (ITIN) è un numero di nove cifre che inizia con un «9" e contiene un «7" o «8" come quarta cifra. Un ITIN può essere formattato con uno spazio o un trattino dopo la terza e la quarta cifra.
- SSN
-
Un numero di previdenza sociale degli Stati Uniti (SSN) è un numero di nove cifre rilasciato ai cittadini statunitensi, ai residenti permanenti e ai residenti che lavorano temporaneamente. Amazon Comprehend riconosce anche i numeri di previdenza sociale quando sono presenti solo le ultime quattro cifre.