Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sie können Amazon Comprehend verwenden, um PII-Entitäten in englischen oder spanischen Textdokumenten zu erkennen. Eine PII-Entität ist eine bestimmte Art von persönlich identifizierbaren Informationen (PII). Verwenden Sie die PII-Erkennung, um die PII-Entitäten zu lokalisieren oder die PII-Entitäten im Text zu schwärzen.
Themen
Suchen Sie nach PII-Entitäten
Um die PII-Entitäten in Ihrem Text zu finden, können Sie mithilfe von Echtzeitanalysen schnell ein einzelnes Dokument analysieren. Sie können auch einen asynchronen Batch-Job für eine Sammlung von Dokumenten starten.
Sie können die Konsole oder die API für die Echtzeitanalyse eines einzelnen Dokuments verwenden. Ihr Eingabetext kann bis zu 100 Kilobyte an UTF-8-kodierten Zeichen enthalten.
Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu finden:
Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.
Die Ausgabe enthält die Information, dass „Paul Santos“ den Typ hat, „1111-0000-1111-0000" den Typ hat und „123 Any StreetNAME
, Seattle, WA 98109" den Typ hat. CREDIT_DEBIT_NUMBER
ADDRESS
Amazon Comprehend gibt eine Liste der erkannten PII-Entitäten mit den folgenden Informationen für jede PII-Entität zurück:
-
Ein Wert, der die Wahrscheinlichkeit schätzt, dass es sich bei der erkannten Textspanne um den erkannten Entitätstyp handelt.
-
Der PII-Entitätstyp.
-
Die Position der PII-Entität im Dokument, angegeben als Zeichenversätze für den Anfang und das Ende der Entität.
Beispielsweise erzeugt der zuvor erwähnte Eingabetext die folgende Antwort:
{
"Entities": [
{
"Score": 0.9999669790267944,
"Type": "NAME",
"BeginOffset": 6,
"EndOffset": 18
},
{
"Score": 0.8905550241470337,
"Type": "CREDIT_DEBIT_NUMBER",
"BeginOffset": 69,
"EndOffset": 88
},
{
"Score": 0.9999889731407166,
"Type": "ADDRESS",
"BeginOffset": 103,
"EndOffset": 138
}
]
}
PII-Entitäten redigieren
Um die PII-Entitäten in Ihrem Text zu schwärzen, können Sie die Konsole oder die API verwenden, um einen asynchronen Batch-Job zu starten. Amazon Comprehend gibt eine Kopie des eingegebenen Textes mit Schwärzungen für jede PII-Entität zurück.
Sie können beispielsweise den folgenden Eingabetext einreichen, um die PII-Entitäten zu redigieren:
Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.
Die Ausgabedatei enthält den folgenden Text:
Hallo ***** ******. Die letzte Abrechnung für Ihr Kreditkartenkonto ******************* wurde per Post an *** *** ******* ******** ** ***** gesendet.
Universelle PII-Entitätstypen
Einige PII-Entitätstypen sind universal (nicht länderspezifisch), wie E-Mail-Adressen und Kreditkartennummern. Amazon Comprehend erkennt die folgenden Typen von universellen PII-Entitäten:
- ADDRESS
-
Eine physische Adresse, z. B. „100 Main Street, Anytown, USA“ oder „Suite #12, Building 123". Eine Adresse kann Informationen wie Straße, Gebäude, Standort, Stadt, Bundesland, Land, Bezirk, Postleitzahl, Bezirk und Nachbarschaft enthalten.
- AGE
-
Das Alter einer Person, einschließlich Menge und Zeiteinheit. In dem Satz „Ich bin 40 Jahre alt“ erkennt Amazon Comprehend beispielsweise „40 Jahre“ als Alter an.
- AWS_ACCESS_SCHLÜSSEL
-
Eine eindeutige Kennung, die einem geheimen Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.
- AWS_SECRET_SCHLÜSSEL
-
Ein eindeutiger Bezeichner, der einem Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.
- CREDIT_DEBIT_CVV
-
Ein dreistelliger Kartenbestätigungscode (CVV), der auf Kredit- und Debitkarten von VISA und Discover vorhanden ist. MasterCard Bei Kredit- oder Debitkarten von American Express ist der CVV ein vierstelliger numerischer Code.
- CREDIT_DEBIT_EXPIRATION
-
Das Ablaufdatum einer Kredit- oder Debitkarte. Diese Zahl ist normalerweise vierstellig und wird oft als formatiert. month/year or MM/YY Amazon Comprehend erkennt Ablaufdaten wie den 21. Januar, den Januar 2021 und den Januar 2021.
- CREDIT_DEBIT_NUMBER
-
Die Nummer einer Kredit- oder Debitkarte. Diese Zahlen können zwischen 13 und 16 Ziffern lang sein. Amazon Comprehend erkennt jedoch auch Kredit- oder Debitkartennummern, wenn nur die letzten vier Ziffern vorhanden sind.
- DATE_TIME
-
Ein Datum kann ein Jahr, einen Monat, einen Tag, einen Wochentag oder eine Tageszeit enthalten. Amazon Comprehend erkennt beispielsweise „19. Januar 2020“ oder „11 Uhr“ als Daten. Amazon Comprehend erkennt Teildaten, Datumsbereiche und Datumsintervalle. Es erkennt auch Jahrzehnte wie „die 1990er“.
- TREIBER-ID
-
Die Nummer, die einem Führerschein zugewiesen ist. Dabei handelt es sich um ein offizielles Dokument, das es einer Person ermöglicht, ein oder mehrere motorisierte Fahrzeuge auf einer öffentlichen Straße zu fahren. Eine Führerscheinnummer besteht aus alphanumerischen Zeichen.
-
Eine E-Mail-Adresse, z. B. marymajor@email.com.
- INTERNATIONALE_BANKKONTONUMMER
-
Eine internationale Bankkontonummer hat in jedem Land spezifische Formate. Weitere Informationen finden Sie unter www.iban.com/structure
. - IP_ADDRESS
-
Eine IPv4 Adresse, z. B. 198.51.100.0.
- NUMMERNSCHILD
-
Ein Nummernschild für ein Fahrzeug wird von dem Staat oder Land ausgestellt, in dem das Fahrzeug registriert ist. Das Format für Personenkraftwagen besteht in der Regel aus fünf bis acht Ziffern, die aus Großbuchstaben und Zahlen bestehen. Das Format variiert je nach Standort des ausstellenden Staates oder Landes.
- MAC_ADRESS
-
Eine MAC-Adresse (Media Access Control) ist eine eindeutige Kennung, die einem Network Interface Controller (NIC) zugewiesen wird.
- NAME
-
Der Name einer Person. Dieser Entitätstyp umfasst keine Titel wie Dr., Herr, Frau oder Fräulein. Amazon Comprehend wendet diesen Entitätstyp nicht auf Namen an, die Teil von Organisationen oder Adressen sind. Amazon Comprehend erkennt beispielsweise die „John Doe Organization“ als Organisation und „Jane Doe Street“ als Adresse an.
- PASSWORD
-
Eine alphanumerische Zeichenfolge, die als Passwort verwendet wird, z. B. „*very20special #pass *“.
- PHONE
-
Eine Telefonnummer. Dieser Entitätstyp umfasst auch Fax- und Pager-Nummern.
- PIN
-
Eine vierstellige persönliche Identifikationsnummer (PIN), mit der Sie auf Ihr Bankkonto zugreifen können.
- SWIFT_CODE
-
Ein SWIFT-Code ist ein Standardformat für den Bank Identifier Code (BIC), der zur Angabe einer bestimmten Bank oder Filiale verwendet wird. Banken verwenden diese Codes für Geldtransfers wie internationale Überweisungen.
SWIFT-Codes bestehen aus acht oder 11 Zeichen. Die 11-stelligen Codes beziehen sich auf bestimmte Filialen, während sich achtstellige Codes (oder 11-stellige Codes, die auf „XXX“ enden) auf den Hauptsitz oder die Hauptniederlassung beziehen.
- URL
-
Eine Webadresse, z. B. www.example.com.
- Die Datei „snowball-adapter.config“ enthält die Konfigurationseinstellungen für den Adapter.
-
Ein Benutzername, der ein Konto identifiziert, z. B. ein Anmeldename, ein Bildschirmname, ein Spitzname oder ein Nutzername.
- FAHRZEUGIDENTIFIKATIONSNUMMER
-
Eine Fahrzeugidentifikationsnummer (VIN) identifiziert ein Fahrzeug eindeutig. Inhalt und Format der Fahrgestellnummer sind in der Spezifikation ISO 3779 definiert. Jedes Land hat spezifische Codes und Formate für VINs.
Länderspezifische PII-Entitätstypen
Einige PII-Entitätstypen sind länderspezifisch, z. B. Passnummern und andere von der Regierung ausgestellte Ausweisnummern. Amazon Comprehend erkennt die folgenden Typen von länderspezifischen PII-Entitäten:
- CA_HEALTH_NUMBER
-
Eine kanadische Gesundheitsdienstnummer ist eine 10-stellige eindeutige Kennung, die für den Zugang zu Gesundheitsleistungen erforderlich ist.
- CA_SOCIAL_INSURANCE_NUMBER
-
Eine kanadische Sozialversicherungsnummer (SIN) ist eine neunstellige eindeutige Kennung, die Einzelpersonen benötigen, um staatliche Programme und Leistungen in Anspruch zu nehmen.
Die SIN ist als drei Gruppen von drei Ziffern formatiert, z. B. 123-456-789. Eine SIN kann durch ein einfaches Prüfziffernverfahren, den so genannten Luhn-Algorithmus, validiert werden.
- IN_AADHAAR
-
Ein indisches Aadhaar ist eine 12-stellige eindeutige Identifikationsnummer, die von der indischen Regierung an Einwohner Indien vergeben wird. Das Aadhaar-Format hat nach der vierten und achten Ziffer ein Leerzeichen oder einen Bindestrich.
- IN_NREGA
-
Eine Nummer nach dem Indian National Rural Employment Guarantee Act (NREGA) besteht aus zwei Buchstaben, gefolgt von 14 Zahlen.
- IN_PERMANENT_ACCOUNT_NUMBER
-
Eine indische permanente Kontonummer ist eine 10-stellige eindeutige alphanumerische Nummer, die von der Einkommenssteuerbehörde ausgestellt wird.
- IN_VOTER_NUMBER
-
Ein indischer Wählerausweis besteht aus drei Buchstaben, gefolgt von sieben Zahlen.
- UK_NATIONAL_HEALTH_SERVICE_NUMBER
-
Eine Nummer des britischen National Health Service ist eine 10- bis 17-stellige Nummer, z. B. 485 777 3456. Das aktuelle System formatiert die 10-stellige Zahl mit Leerzeichen nach der dritten und sechsten Ziffer. Die letzte Ziffer ist eine Prüfsumme zur Fehlererkennung.
Das 17-stellige Zahlenformat enthält Leerzeichen nach der 10. und 13. Ziffer.
- UK_NATIONAL_INSURANCE_NUMBER
-
Eine britische National Insurance Number (NINO) ermöglicht Einzelpersonen den Zugang zu Leistungen der nationalen Versicherung (Sozialversicherung). Sie wird auch für einige Zwecke im britischen Steuersystem verwendet.
Die Zahl ist neunstellig und beginnt mit zwei Buchstaben, gefolgt von sechs Zahlen und einem Buchstaben. Ein NINO kann mit einem Leerzeichen oder einem Gedankenstrich nach den beiden Buchstaben und nach der zweiten, vierten und sechsten Ziffer formatiert werden.
- UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER
-
Eine Unique Taxpayer Reference (UTR) für Großbritannien ist eine 10-stellige Zahl, die einen Steuerzahler oder ein Unternehmen identifiziert.
- BANKKONTONUMMER
-
Eine US-Bankkontonummer, die normalerweise 10 bis 12 Ziffern lang ist. Amazon Comprehend erkennt auch Bankkontonummern, wenn nur die letzten vier Ziffern vorhanden sind.
- BANK_ROUTING
-
Eine US-Bankleitzahl. Diese sind normalerweise neun Ziffern lang, aber Amazon Comprehend erkennt auch Routing-Nummern, wenn nur die letzten vier Ziffern vorhanden sind.
- REISEPASSNUMMER
-
Eine US-Passnummer. Die Passnummern bestehen aus sechs bis neun alphanumerischen Zeichen.
- US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER
-
Eine US-amerikanische Steueridentifikationsnummer (ITIN) ist eine neunstellige Zahl, die mit einer „9“ beginnt und eine „7“ oder „8“ als vierte Ziffer enthält. Eine ITIN kann mit einem Leerzeichen oder einem Gedankenstrich nach der dritten und vierten Ziffer formatiert werden.
- SSN
-
Eine US-Sozialversicherungsnummer (SSN) ist eine neunstellige Zahl, die an US-Bürger, ständige Einwohner und vorübergehend erwerbstätige Einwohner vergeben wird. Amazon Comprehend erkennt auch Sozialversicherungsnummern, wenn nur die letzten vier Ziffern vorhanden sind.