Erstellen von benutzerdefinierten Datenbezeichnern - Amazon Macie

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen von benutzerdefinierten Datenbezeichnern

Eine benutzerdefinierte Daten-ID ist eine Reihe von Kriterien, die Sie definieren, um sensible Daten in Amazon Simple Storage Service (Amazon S3) -Objekten zu erkennen. Die Kriterien bestehen aus einem regulären Ausdruck (Regex), der ein zu suchendes Textmuster definiert und optional Zeichenfolgen und eine Näherungsregel zur Eingrenzung der Ergebnisse festlegt.

Mit benutzerdefinierten Datenkennungen können Sie Erkennungskriterien definieren, die die speziellen Szenarien, das geistige Eigentum oder die firmeneigenen Daten Ihres Unternehmens widerspiegeln, z. B. Mitarbeiter-IDs, Kundenkontonummern oder interne Datenklassifizierungen. Wenn Sie Aufträge zur Erkennung vertraulicher Daten oder die automatische Erkennung sensibler Daten für die Verwendung dieser Kennungen konfigurieren, können Sie S3-Objekte so analysieren, dass sie die verwalteten Datenkennungen, die Amazon Macie bereitstellt, ergänzen.

Zusätzlich zu den Erkennungskriterien können Sie benutzerdefinierte Einstellungen für den Schweregrad der Ergebnisse sensibler Daten definieren, die durch eine benutzerdefinierte Daten-ID generiert werden. Standardmäßig weist Macie allen Ergebnissen, die eine benutzerdefinierte Daten-ID hervorbringt, den Schweregrad Mittel zu. Der Schweregrad ändert sich nicht, je nachdem, wie oft Text vorkommt, der den Erkennungskriterien einer benutzerdefinierten Daten-ID entspricht. Indem Sie benutzerdefinierte Einstellungen für den Schweregrad definieren, können Sie anhand der Anzahl der Textvorkommen, die den Kriterien entsprechen, angeben, welcher Schweregrad zugewiesen werden soll.

Definieren von Erkennungskriterien für benutzerdefinierte Datenbezeichner

Wenn Sie einen benutzerdefinierten Datenbezeichner erstellen, geben Sie einen regulären Ausdruck (Regex) an, der ein Textmuster definiert, das in S3-Objekten abgeglichen werden soll. Amazon Macie unterstützt eine Teilmenge der Regex-Mustersyntax, die von der Perl-Bibliothek Compatible Regular Expressions () bereitgestellt wird. PCRE Weitere Informationen finden Sie weiter unten in diesem AbschnittRegex-Unterstützung.

Sie können auch Zeichenfolgen wie Wörter und Ausdrücke sowie eine Näherungsregel angeben, um die Ergebnisse zu verfeinern.

Schlüsselwörter

Dabei handelt es sich um bestimmte Zeichenfolgen, die sich in der Nähe von Text befinden müssen, der dem Regex-Muster entspricht. Die Anforderungen an die Nähe variieren je nach Speicherformat oder Dateityp eines S3-Objekts:

  • Bei strukturierten, spaltenförmigen Daten fügt Macie ein Ergebnis hinzu, wenn der Text dem Regex-Muster entspricht und ein Schlüsselwort im Namen des Felds oder der Spalte enthalten ist, in dem der Text gespeichert ist, oder wenn dem Text ein Schlüsselwort vorangestellt ist und sich innerhalb der maximalen Übereinstimmungsdistanz dieses Schlüsselworts in demselben Feld oder Zellenwert befindet. Dies gilt für Microsoft Excel-Arbeitsmappen, CSV -Dateien und TSV -Dateien.

  • Bei strukturierten, datensatzbasierten Daten schließt Macie ein Ergebnis ein, wenn der Text dem Regex-Muster entspricht und sich der Text innerhalb der maximalen Übereinstimmungsdistanz eines Schlüsselworts befindet. Das Schlüsselwort kann im Namen eines Elements im Pfad zu dem Feld oder Array enthalten sein, in dem der Text gespeichert ist, oder es kann demselben Wert in dem Feld oder der Matrix, in dem der Text gespeichert ist, vorangehen und Teil desselben Werts sein. Dies gilt für Apache Avro-Objektcontainer, Apache Parquet-Dateien, JSON -Dateien und JSON Lines-Dateien.

  • Bei unstrukturierten Daten schließt Macie ein Ergebnis ein, wenn der Text dem Regex-Muster entspricht und dem Text ein Schlüsselwort vorangestellt ist und sich innerhalb der maximalen Übereinstimmungsdistanz befindet. Dies gilt für Dateien im Adobe Portable Document Format, Microsoft Word-Dokumente, E-Mail-Nachrichten und andere nicht-binäre Textdateien alsCSV,JSON, JSON Zeilen und TSV Dateien. Dies schließt alle strukturierten Daten, wie z. B. Tabellen, in diesen Dateitypen ein.

Sie können bis zu 50 Schlüsselwörter angeben. Jedes Schlüsselwort kann 3—90 UTF —8 Zeichen enthalten. Bei Schlüsselwörtern muss die Groß- und Kleinschreibung nicht beachtet werden.

Maximaler Trefferabstand

Dies ist eine zeichenbasierte Näherungsregel für Keywords. Macie verwendet diese Einstellung, um zu bestimmen, ob ein Schlüsselwort vor einem Text steht, der dem Regex-Muster entspricht. Die Einstellung definiert die maximale Anzahl von Zeichen, die zwischen dem Ende eines vollständigen Schlüsselworts und dem Ende des Textes, der dem Regex-Muster entspricht, bestehen können. Wenn Text dem Regex-Muster entspricht, nach mindestens einem vollständigen Schlüsselwort steht und innerhalb der angegebenen Entfernung zum Schlüsselwort vorkommt, nimmt Macie ihn in die Ergebnisse auf. Andernfalls schließt Macie es aus den Ergebnissen aus.

Sie können einen Abstand von 1—300 Zeichen angeben. Der Standardabstand beträgt 50 Zeichen. Um optimale Ergebnisse zu erzielen, sollte dieser Abstand größer sein als die Mindestanzahl von Textzeichen, für die die Regex entworfen wurde. Wenn nur ein Teil des Textes innerhalb der maximalen Trefferdistanz eines Schlüsselworts liegt, nimmt Macie ihn nicht in die Ergebnisse auf.

Ignoriere Wörter

Dies sind spezifische Zeichenfolgen, die aus den Ergebnissen ausgeschlossen werden sollen. Wenn Text dem Regex-Muster entspricht, aber ein Ignorierwort enthält, nimmt Macie es nicht in die Ergebnisse auf.

Sie können bis zu 10 Ignorierwörter angeben. Jedes Ignorierwort kann 4—90 UTF -8 Zeichen enthalten. Die zu ignorierenden Wörter unterscheiden zwischen Groß- und Kleinschreibung.

Beispielsweise haben viele Unternehmen eine spezifische Syntax für Mitarbeiter. IDs Eine solche Syntax könnte lauten: ein Großbuchstabe, der angibt, ob es sich bei dem Mitarbeiter um einen Vollzeit- (F) oder Teilzeitbeschäftigten (P) handelt, gefolgt von einem Bindestrich (-), gefolgt von einer achtstelligen Sequenz, die den Mitarbeiter identifiziert. Beispiele sind: F-12345678 für einen Vollzeitbeschäftigten und P-87654321 für einen Teilzeitbeschäftigten.

Wenn Sie eine benutzerdefinierte Daten-ID erstellen, um Mitarbeiter zu erkennen, die diese Syntax verwendenIDs, können Sie den folgenden regulären Ausdruck verwenden:. [A-Z]-\d{8} Um die Analyse zu verfeinern und Fehlalarme zu vermeiden, können Sie den benutzerdefinierten Datenbezeichner auch so konfigurieren, dass er die Schlüsselwörter Mitarbeiter und Mitarbeiter-ID sowie einen maximalen Suchabstand von 20 Zeichen verwendet. Bei diesen Kriterien enthalten die Ergebnisse nur dann Text, der der Regex entspricht, wenn der Text nach dem Schlüsselwort Mitarbeiter oder Mitarbeiter-ID steht und der gesamte Text innerhalb von 20 Zeichen vor einem dieser Schlüsselwörter steht.

Sehen Sie sich das folgende Video an, um zu zeigen, wie Stichwörter Ihnen helfen können, vertrauliche Daten zu finden und Fehlalarme zu vermeiden:

Definieren von Einstellungen für den Schweregrad der Suche nach benutzerdefinierten Datenkennungen

Wenn Sie eine benutzerdefinierte Daten-ID erstellen, können Sie auch benutzerdefinierte Einstellungen für den Schweregrad definieren, die anhand der Kennung erkannt werden. Standardmäßig weist Amazon Macie allen Ergebnissen, die eine benutzerdefinierte Daten-ID ergibt, den Schweregrad Mittel zu. Das heißt, wenn ein S3-Objekt mindestens einmal Text enthält, der den Erkennungskriterien entspricht, weist Macie dem resultierenden Ergebnis automatisch den Schweregrad Mittel zu.

Mit benutzerdefinierten Schweregradeinstellungen geben Sie an, welcher Schweregrad auf der Grundlage der Anzahl von Textvorkommen zugewiesen werden soll, die den Erkennungskriterien entsprechen. Sie können Schwellenwerte für Vorkommen für bis zu drei Schweregrade definieren: Niedrig (am wenigsten schwerwiegend), Mittel und Hoch (am schwersten). Ein Schwellenwert für Vorkommnisse ist die Mindestanzahl von Übereinstimmungen, die in einem S3-Objekt vorhanden sein müssen, um ein Ergebnis mit dem angegebenen Schweregrad zu erhalten. Wenn Sie mehr als einen Schwellenwert angeben, müssen die Schwellenwerte nach Schweregrad in aufsteigender Reihenfolge angegeben werden, d. h. von Niedrig bis Hoch.

Die folgende Abbildung zeigt beispielsweise die Schweregradeinstellungen für eine benutzerdefinierte Daten-ID, die drei Schwellenwerte festlegt, einen für jeden Schweregrad, den Macie unterstützt.

Schweregradeinstellungen, die Schwellenwerte für Vorkommen für die Schweregrade Niedrig, Mittel und Hoch angeben.

In der folgenden Tabelle wird der Schweregrad der Ergebnisse angegeben, die mit der benutzerdefinierten Daten-ID erzielt wurden.

Schwellenwert für Vorkommen Schweregrad Ergebnis
1 Niedrig Wenn ein S3-Objekt 1—49 Textvorkommen enthält, die den Erkennungskriterien entsprechen, ist der Schweregrad des resultierenden Ergebnisses Niedrig.
50 Mittelschwer Wenn ein S3-Objekt 50—99 Textstellen enthält, die den Erkennungskriterien entsprechen, lautet der Schweregrad des resultierenden Ergebnisses Mittel.
100 Hoch Wenn ein S3-Objekt 100 oder mehr Textstellen enthält, die den Erkennungskriterien entsprechen, lautet der Schweregrad des resultierenden Ergebnisses Hoch.

Sie können auch die Einstellungen für den Schweregrad verwenden, um anzugeben, ob überhaupt ein Befund erstellt werden soll. Wenn ein S3-Objekt weniger Vorkommen enthält als der Schwellenwert für das niedrigste Vorkommen, erstellt Macie keinen Befund.

Benutzerdefinierte Datenbezeichner erstellen

Gehen Sie wie folgt vor, um mithilfe der Amazon Macie Macie-Konsole eine benutzerdefinierte Daten-ID zu erstellen. Verwenden Sie den CreateCustomDataIdentifierBetrieb des Amazon Macie, um programmgesteuert eine benutzerdefinierte Daten-ID zu erstellen. API

Um eine benutzerdefinierte Daten-ID zu erstellen
  1. Öffnen Sie die Amazon Macie Macie-Konsole unter https://console.aws.amazon.com/macie/.

  2. Wählen Sie im Navigationsbereich unter Einstellungen die Option Benutzerdefinierte Datenkennungen aus.

  3. Wählen Sie Create (Erstellen) aus.

  4. Geben Sie unter Name einen Namen für den benutzerdefinierten Datenbezeichner ein. Der Name darf maximal 128 Zeichen enthalten.

    Vermeiden Sie es, sensible Daten in den Namen aufzunehmen. Andere Benutzer Ihres Kontos können den Namen möglicherweise sehen, abhängig von den Aktionen, die sie in Macie ausführen dürfen.

  5. (Optional) Geben Sie unter Beschreibung eine kurze Beschreibung der benutzerdefinierten Daten-ID ein. Die Beschreibung darf maximal 512 Zeichen enthalten.

    Vermeiden Sie es, sensible Daten in die Beschreibung aufzunehmen. Andere Benutzer Ihres Kontos können die Beschreibung möglicherweise sehen, abhängig von den Aktionen, die sie in Macie ausführen dürfen.

  6. Geben Sie für Reguläre Ausdrücke den regulären Ausdruck (Regex) ein, der das passende Textmuster definiert. Der reguläre Ausdruck kann bis zu 512 Zeichen enthalten. Weitere Informationen zur unterstützten Syntax und Einschränkungen finden Sie weiter unten Regex-Unterstützung in diesem Abschnitt.

  7. (Optional) Geben Sie für Schlüsselwörter bis zu 50 Zeichenfolgen (durch Kommas getrennt) ein, um bestimmten Text zu definieren, der sich in der Nähe von Text befinden muss, der dem Regex-Muster entspricht. Jedes Schlüsselwort kann UTF 3—90 —8 Zeichen enthalten. Bei Schlüsselwörtern muss die Groß- und Kleinschreibung nicht beachtet werden.

    Macie nimmt ein Vorkommen nur dann in die Ergebnisse auf, wenn der Text dem Regex-Muster entspricht und sich der Text innerhalb der maximalen Übereinstimmungsdistanz zu einem dieser Schlüsselwörter befindet, wie im vorherigen Thema erklärt.

  8. (Optional) Geben Sie für Wörter ignorieren bis zu 10 Zeichenfolgen (durch Kommas getrennt) ein, die bestimmten Text definieren, der aus den Ergebnissen ausgeschlossen werden soll. Jedes Wort zum Ignorieren kann 4—90 UTF —8 Zeichen enthalten. Die zu ignorierenden Wörter unterscheiden zwischen Groß- und Kleinschreibung.

    Macie schließt ein Vorkommen aus den Ergebnissen aus, wenn der Text dem Regex-Muster entspricht, er aber eines dieser Ignorierwörter enthält.

  9. (Optional) Geben Sie unter Maximaler Übereinstimmungsabstand die maximale Anzahl von Zeichen ein, die zwischen dem Ende eines Schlüsselworts und dem Ende des Textes, der dem Regex-Muster entspricht, bestehen können. Der Abstand kann 1—300 Zeichen betragen. Die Standardentfernung beträgt 50 Zeichen.

    Macie nimmt ein Vorkommen nur dann in die Ergebnisse auf, wenn der Text dem Regex-Muster entspricht und sich der Text innerhalb dieser Entfernung von einem vollständigen Schlüsselwort befindet, wie im vorherigen Thema erklärt.

  10. Wählen Sie unter Schweregrad aus, wie Macie den Ergebnissen vertraulicher Daten, die durch die benutzerdefinierte Daten-ID generiert werden, den Schweregrad zuweisen soll:

    • Um allen Ergebnissen automatisch den Schweregrad Mittel zuzuweisen, wählen Sie Mittleren Schweregrad für eine beliebige Anzahl von Treffern verwenden (Standardeinstellung). Mit dieser Option weist Macie einem Ergebnis automatisch den Schweregrad Mittel zu, wenn das betroffene S3-Objekt ein oder mehrere Textvorkommen enthält, die den Erkennungskriterien entsprechen.

    • Um den Schweregrad auf der Grundlage der von Ihnen angegebenen Schwellenwerte für Ereignisse zuzuweisen, wählen Sie „Benutzerdefinierte Einstellungen zur Bestimmung des Schweregrads verwenden“. Geben Sie anschließend mit den Optionen Schwellenwert für Vorkommen und Schweregrad die Mindestanzahl von Übereinstimmungen an, die in einem S3-Objekt vorhanden sein müssen, um ein Ergebnis mit einem ausgewählten Schweregrad zu erhalten.

      Um beispielsweise einem Ergebnis, das 100 oder mehr Textvorkommen meldet, die den Erkennungskriterien entsprechen, den Schweregrad Hoch zuzuweisen, geben Sie 100 in das Feld Schwellenwert für Vorkommen ein und wählen dann in der Liste Schweregrad die Option Hoch aus.

      Sie können bis zu drei Schwellenwerte angeben, einen für jeden Schweregrad, den Macie unterstützt: Niedrig (für den geringsten Schweregrad), Mittel oder Hoch (für den schwerwiegendsten). Wenn Sie mehr als einen angeben, müssen die Schwellenwerte nach Schweregrad aufsteigend angeordnet sein, d. h. von Niedrig bis Hoch. Wenn ein S3-Objekt weniger Vorkommen enthält als der niedrigste angegebene Schwellenwert, erstellt Macie kein Ergebnis.

  11. (Optional) Wählen Sie für Tags die Option Tag hinzufügen aus, und geben Sie dann bis zu 50 Tags ein, die dem benutzerdefinierten Datenbezeichner zugewiesen werden sollen.

    Ein Tag ist eine Bezeichnung, die Sie definieren und bestimmten Ressourcentypen AWS zuweisen. Jedes Tag besteht aus einem erforderlichen Tag-Schlüssel und einem optionalen Tag-Wert. Mithilfe von Tags können Sie Ressourcen auf unterschiedliche Weise identifizieren, kategorisieren und verwalten, z. B. nach Zweck, Eigentümer, Umgebung oder anderen Kriterien. Weitere Informationen hierzu finden Sie unter Macie-Ressourcen taggen.

  12. (Optional) Geben Sie für Evaluieren bis zu 1.000 Zeichen in das Feld Beispieldaten ein, und wählen Sie dann Test aus, um die Erkennungskriterien zu testen. Macie wertet die Beispieldaten aus und gibt an, wie oft Text vorkommt, der den Kriterien entspricht. Sie können diesen Schritt beliebig oft wiederholen, um die Kriterien zu verfeinern und zu optimieren.

    Anmerkung

    Es wird dringend empfohlen, die Erkennungskriterien zu testen und zu verfeinern, bevor Sie den benutzerdefinierten Datenbezeichner speichern. Da benutzerdefinierte Datenbezeichner bei Aufträgen zur Erkennung vertraulicher Daten verwendet werden, können Sie eine benutzerdefinierte Daten-ID nach dem Speichern nicht mehr bearbeiten. Auf diese Weise können Sie sicherstellen, dass Sie über einen unveränderlichen Verlauf der Ergebnisse sensibler Daten und der Ergebnisse der von Ihnen durchgeführten Datenschutzprüfungen oder -untersuchungen verfügen.

  13. Wenn Sie fertig sind, klicken Sie auf Submit (Absenden).

Macie testet die Einstellungen und stellt sicher, dass es die Regex kompilieren kann. Wenn es ein Problem mit einer der Einstellungen oder der Regex gibt, tritt ein Fehler auf, der auf die Art des Problems hinweist. Nachdem Sie alle Probleme behoben haben, können Sie die benutzerdefinierte Daten-ID speichern.

Regex-Unterstützung für benutzerdefinierte Datenbezeichner

Amazon Macie unterstützt eine Teilmenge der Regex-Mustersyntax, die von der Perl-Bibliothek Compatible Regular Expressions () bereitgestellt wird. PCRE Von den in der PCRE Bibliothek bereitgestellten Konstrukten unterstützt Macie die folgenden Musterelemente nicht:

  • Rückverweise

  • Gruppen erfassen

  • Bedingungsmuster

  • Eingebetteter Code

  • Globale Musterflags, wie /i/m, und /x

  • Rekursive Muster

  • Positive und negative Look-Behind- und Look-Ahead-Assertionen mit einer Breite von Null, wie,, und ?= ?! ?<= ?<!

Beachten Sie auch die folgenden Tipps und Empfehlungen, um effektive Regex-Muster für benutzerdefinierte Datenbezeichner zu erstellen:

  • Anker — Verwenden Sie Anker (^oder$) nur, wenn Sie erwarten, dass das Muster am Anfang oder Ende einer Datei erscheint, nicht am Anfang oder Ende einer Zeile.

  • Beschränkte Wiederholungen — Aus Leistungsgründen begrenzt Macie die Größe begrenzter Wiederholungsgruppen. Kompiliert beispielsweise \d{100,1000} nicht in Macie. Um sich dieser Funktionalität anzunähern, können Sie eine Wiederholung mit offenem Ende verwenden, wie z. \d{100,}

  • Keine Berücksichtigung von Groß- und Kleinschreibung — Um bei Teilen eines Musters die Groß- und Kleinschreibung nicht zu berücksichtigen, können Sie das (?i) Konstrukt anstelle des Flags verwenden. /i

  • Leistung — Präfixe oder Alternativen müssen nicht manuell optimiert werden. Wenn Sie beispielsweise /hello|hi|hey/ zu wechseln, /h(?:ello|i|ey)/ wird die Leistung nicht verbessert.

  • Platzhalter — Aus Leistungsgründen begrenzt Macie die Anzahl wiederholter Platzhalter. Kompiliert beispielsweise a*b*a* nicht in Macie.

Zum Schutz vor falsch formatierten oder lang andauernden Ausdrücken testet Macie automatisch Regex-Muster anhand einer Sammlung von Beispieltext.