Entitäten erkennen PII - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Entitäten erkennen PII

Sie können Amazon Comprehend verwenden, um PIIEntitäten in englischen oder spanischen Textdokumenten zu erkennen. Eine PII Entität ist eine bestimmte Art von personenbezogenen Daten ()PII. Verwenden Sie die PII Erkennung, um die PII Entitäten zu lokalisieren oder die PII Entitäten im Text zu redigieren.

Suchen Sie nach Entitäten PII

Um die PII Entitäten in Ihrem Text zu finden, können Sie mithilfe von Echtzeitanalysen schnell ein einzelnes Dokument analysieren. Sie können auch einen asynchronen Batch-Job für eine Sammlung von Dokumenten starten.

Sie können die Konsole oder die API für die Echtzeitanalyse eines einzelnen Dokuments verwenden. Ihr Eingabetext kann bis zu 100 Kilobyte mit UTF -8 codierten Zeichen enthalten.

Sie können beispielsweise den folgenden Eingabetext einreichen, um die Entitäten zu finden: PII

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabe enthält die Information, dass „Paul Santos“ den Typ hat, „1111-0000-1111-0000" den Typ hat und „123 Any StreetNAME, Seattle, WA 98109" den Typ hat. CREDIT_DEBIT_NUMBER ADDRESS

Amazon Comprehend gibt eine Liste der erkannten PII Entitäten mit den folgenden Informationen für jede PII Entität zurück:

  • Ein Wert, der die Wahrscheinlichkeit schätzt, dass es sich bei der erkannten Textspanne um den erkannten Entitätstyp handelt.

  • Der PII Entitätstyp.

  • Die Position der PII Entität im Dokument, angegeben als Zeichenversätze für den Anfang und das Ende der Entität.

Beispielsweise erzeugt der zuvor erwähnte Eingabetext die folgende Antwort:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Entitäten redigieren PII

Um die PII Entitäten in Ihrem Text zu schwärzen, können Sie die Konsole oder die verwenden, API um einen asynchronen Batch-Job zu starten. Amazon Comprehend gibt eine Kopie des eingegebenen Textes mit Schwärzungen für jede Entität zurück. PII

Sie können beispielsweise den folgenden Eingabetext einreichen, um die Entitäten zu redigieren: PII

Hallo Paulo Santos. Der letzte Kontoauszug für Ihr Kreditkartenkonto 1111-0000-1111-0000 wurde an 123 Any Street, Seattle, WA 98109 gesendet.

Die Ausgabedatei enthält den folgenden Text:

Hallo ***** ******. Die letzte Abrechnung für Ihr Kreditkartenkonto ******************* wurde per Post an *** *** ******* ******** ** ***** gesendet.

PIIuniverselle Entitätstypen

Einige PII Rechtstypen sind universal (nicht länderspezifisch), wie E-Mail-Adressen und Kreditkartennummern. Amazon Comprehend erkennt die folgenden Typen von universellen PII Entitäten:

ADDRESS

Eine physische Adresse, z. B. „100 Main Street, AnytownUSA“ oder „Suite #12, Building 123". Eine Adresse kann Informationen wie Straße, Gebäude, Standort, Stadt, Bundesland, Land, Bezirk, Postleitzahl, Bezirk und Nachbarschaft enthalten.

AGE

Das Alter einer Person, einschließlich Menge und Zeiteinheit. In der Phrase „Ich bin 40 Jahre alt“ erkennt Amazon Comprehend beispielsweise „40 Jahre“ als Alter an.

AWS_ACCESS_KEY

Eine eindeutige Kennung, die einem geheimen Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

AWS_SECRET_KEY

Eine eindeutige Kennung, die einem Zugriffsschlüssel zugeordnet ist. Sie verwenden die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel, um programmatische AWS Anfragen kryptografisch zu signieren.

CREDIT_DEBIT_CVV

Ein dreistelliger Kartenbestätigungscode (CVV), der auf Kredit- und Debitkarten von VISA MasterCard, und Discover vorhanden ist. Bei Kredit- oder Debitkarten von American Express CVV handelt es sich um einen vierstelligen numerischen Code.

CREDIT_DEBIT_EXPIRY

Das Ablaufdatum einer Kredit- oder Debitkarte. Diese Zahl ist normalerweise vierstellig und wird häufig als formatiert. month/year or MM/YY Amazon Comprehend erkennt Ablaufdaten wie den 21. Januar, den Januar 2021 und den Januar 2021.

CREDIT_DEBIT_NUMBER

Die Nummer einer Kredit- oder Debitkarte. Diese Zahlen können zwischen 13 und 16 Ziffern lang sein. Amazon Comprehend erkennt jedoch auch Kredit- oder Debitkartennummern, wenn nur die letzten vier Ziffern vorhanden sind.

DATE_TIME

Ein Datum kann ein Jahr, einen Monat, einen Tag, einen Wochentag oder eine Tageszeit enthalten. Amazon Comprehend erkennt beispielsweise „19. Januar 2020“ oder „11 Uhr“ als Daten. Amazon Comprehend erkennt Teildaten, Datumsbereiche und Datumsintervalle. Es erkennt auch Jahrzehnte wie „die 1990er“.

DRIVER_ID

Die Nummer, die einem Führerschein zugewiesen wurde. Dabei handelt es sich um ein offizielles Dokument, das es einer Person ermöglicht, ein oder mehrere motorisierte Fahrzeuge auf einer öffentlichen Straße zu fahren. Eine Führerscheinnummer besteht aus alphanumerischen Zeichen.

EMAIL

Eine E-Mail-Adresse, z. B. marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Eine internationale Bankkontonummer hat in jedem Land ein bestimmtes Format. Weitere Informationen finden Sie unter www.iban.com/structure.

IP_ ADDRESS

Eine IPv4 Adresse, z. B. 198.51.100.0.

LICENSE_PLATE

Ein Nummernschild für ein Fahrzeug wird von dem Staat oder Land ausgestellt, in dem das Fahrzeug zugelassen ist. Das Format für Personenkraftwagen besteht in der Regel aus fünf bis acht Ziffern, die aus Großbuchstaben und Zahlen bestehen. Das Format variiert je nach Standort des ausstellenden Staates oder Landes.

MAC_ADDRESS

Eine Media Access Control (MAC) -Adresse ist eine eindeutige Kennung, die einem Network Interface Controller (NIC) zugewiesen ist.

NAME

Der Name einer Person. Dieser Entitätstyp umfasst keine Titel wie Dr., Herr, Frau oder Fräulein. Amazon Comprehend wendet diesen Entitätstyp nicht auf Namen an, die Teil von Organisationen oder Adressen sind. Amazon Comprehend erkennt beispielsweise die „John Doe Organization“ als Organisation und „Jane Doe Street“ als Adresse an.

PASSWORD

Eine alphanumerische Zeichenfolge, die als Passwort verwendet wird, z. B. „*very20special #pass *“.

PHONE

Eine Telefonnummer. Dieser Entitätstyp umfasst auch Fax- und Pager-Nummern.

PIN

Eine vierstellige persönliche Identifikationsnummer (PIN), mit der Sie auf Ihr Bankkonto zugreifen können.

SWIFT_CODE

Ein SWIFT Code ist ein Standardformat für den Bank-Identifikationscode (BIC), der zur Angabe einer bestimmten Bank oder Filiale verwendet wird. Banken verwenden diese Codes für Geldtransfers wie internationale Überweisungen.

SWIFTCodes bestehen aus acht oder 11 Zeichen. Die 11-stelligen Codes beziehen sich auf bestimmte Filialen, während sich achtstellige Codes (oder 11-stellige Codes, die auf „XXX'enden) auf den Hauptsitz oder die Hauptniederlassung beziehen.

URL

Eine Webadresse, z. B. www.example.com.

USERNAME

Ein Benutzername, der ein Konto identifiziert, z. B. ein Anmeldename, ein Bildschirmname, ein Spitzname oder ein Nutzername.

VEHICLE_IDENTIFICATION_NUMBER

Eine Fahrzeugidentifikationsnummer (VIN) identifiziert ein Fahrzeug eindeutig. VINInhalt und Format sind in der ISO 3779-Spezifikation definiert. Jedes Land hat spezifische Codes und Formate fürVINs.

Länderspezifische PII Entitätstypen

Einige PII Entitätstypen sind länderspezifisch, z. B. Reisepassnummern und andere von der Regierung ausgestellte Ausweisnummern. Amazon Comprehend erkennt die folgenden Typen von länderspezifischen PII Entitäten:

HEALTHCA_ _ NUMBER

Eine kanadische Gesundheitsdienstnummer ist eine 10-stellige eindeutige Kennung, die für den Zugang zu Gesundheitsleistungen erforderlich ist.

CA_ _ _ SOCIAL INSURANCE NUMBER

Eine kanadische Sozialversicherungsnummer (SIN) ist eine neunstellige eindeutige Kennung, die Einzelpersonen benötigen, um staatliche Programme und Leistungen in Anspruch zu nehmen.

Die SIN ist als drei Gruppen von drei Ziffern formatiert, z. B. 123-456-789. A SIN kann durch einen einfachen Prüfziffernprozess, den so genannten Luhn-Algorithmus, validiert werden.

IN_ AADHAAR

Ein indisches Aadhaar ist eine 12-stellige eindeutige Identifikationsnummer, die von der indischen Regierung an Einwohner Indien vergeben wird. Das Aadhaar-Format hat nach der vierten und achten Ziffer ein Leerzeichen oder einen Bindestrich.

IN_ NREGA

Eine Nummer nach dem indischen Gesetz zur Garantie der Beschäftigung im ländlichen Raum (NREGA) besteht aus zwei Buchstaben, gefolgt von 14 Zahlen.

IN_ _ PERMANENT _ ACCOUNT NUMBER

Eine indische permanente Kontonummer ist eine 10-stellige eindeutige alphanumerische Nummer, die von der Einkommensteuerbehörde ausgestellt wird.

IN_ _ VOTER NUMBER

Ein indischer Wählerausweis besteht aus drei Buchstaben, gefolgt von sieben Zahlen.

UK_ _ _ NATIONAL _ HEALTH SERVICE NUMBER

Eine Nummer des britischen National Health Service ist eine 10- bis 17-stellige Nummer, z. B. 485 777 3456. Das aktuelle System formatiert die 10-stellige Zahl mit Leerzeichen nach der dritten und sechsten Ziffer. Die letzte Ziffer ist eine Prüfsumme zur Fehlererkennung.

Das 17-stellige Zahlenformat enthält Leerzeichen nach der 10. und 13. Ziffer.

UK_ _ _ NATIONAL INSURANCE NUMBER

Eine britische Sozialversicherungsnummer (NINO) ermöglicht Einzelpersonen den Zugang zu Leistungen der nationalen Versicherung (Sozialversicherung). Sie wird auch für einige Zwecke im britischen Steuersystem verwendet.

Die Zahl ist neunstellig und beginnt mit zwei Buchstaben, gefolgt von sechs Zahlen und einem Buchstaben. A NINO kann mit einem Leerzeichen oder einem Gedankenstrich nach den beiden Buchstaben und nach der zweiten, vierten und sechsten Ziffer formatiert werden.

UK_ _ _ UNIQUE _ TAXPAYER REFERENCE NUMBER

Eine eindeutige britische Steuerreferenz (UTR) ist eine 10-stellige Zahl, die einen Steuerzahler oder ein Unternehmen identifiziert.

BANK_ACCOUNT_NUMBER

Eine US-Bankkontonummer, die in der Regel 10 bis 12 Ziffern lang ist. Amazon Comprehend erkennt auch Bankkontonummern, wenn nur die letzten vier Ziffern vorhanden sind.

BANK_ROUTING

Eine US-Bankleitzahl. Diese sind normalerweise neun Ziffern lang, aber Amazon Comprehend erkennt auch Routing-Nummern, wenn nur die letzten vier Ziffern vorhanden sind.

PASSPORT_NUMBER

Eine US-Passnummer. Die Passnummern bestehen aus sechs bis neun alphanumerischen Zeichen.

US_ _ _ INDIVIDUAL _ TAX IDENTIFICATION NUMBER

Eine US-amerikanische Steueridentifikationsnummer (ITIN) ist eine neunstellige Zahl, die mit einer „9“ beginnt und eine „7“ oder „8“ als vierte Ziffer enthält. Eine ITIN kann mit einem Leerzeichen oder einem Gedankenstrich nach der dritten und vierten Ziffer formatiert werden.

SSN

Eine US-Sozialversicherungsnummer (SSN) ist eine neunstellige Zahl, die an US-Bürger, Personen mit ständigem Wohnsitz und vorübergehend erwerbstätige Einwohner vergeben wird. Amazon Comprehend erkennt auch Sozialversicherungsnummern, wenn nur die letzten vier Ziffern vorhanden sind.