Voraussetzungen für Crawler - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Voraussetzungen für Crawler

Der Crawler übernimmt die Berechtigungen der AWS Identity and Access Management (IAM-) Rolle, die Sie bei der Definition angeben. Diese IAM-Rolle muss über Berechtigungen zum Extrahieren von Daten aus Ihrem Datenspeicher und zum Schreiben in den Data Catalog verfügen. Das Tool AWS Glue Die Konsole listet nur IAM-Rollen auf, denen eine Vertrauensrichtlinie für Folgendes zugewiesen wurde AWS Glue Hauptdienst. Von der Konsole aus können Sie auch eine IAM-Rolle mit einer IAM-Richtlinie für den Zugriff auf Amazon-S3-Datenspeicher erstellen, auf die der Crawler zugreift. Weitere Informationen zur Bereitstellung von Rollen für AWS Glue, finden Sie unter Identitätsbasierte Richtlinien für Glue AWS.

Anmerkung

Beim Crawling eines Delta Lake-Datenspeichers benötigen Sie Lese-/Schreibberechtigungen für den Amazon S3-Speicherort.

Für Ihren Crawler können Sie eine Rolle erstellen und die folgenden Richtlinien anfügen:

  • Die AWSGlueServiceRole AWS verwaltete Richtlinie, die die erforderlichen Berechtigungen für den Datenkatalog gewährt

  • Eine Inline-Richtlinie, die Berechtigungen für die Datenquelle erteilt.

  • Eine Inline-Richtlinie, die iam:PassRole Berechtigungen für die Rolle gewährt.

Ein schnellerer Ansatz besteht darin, AWS Glue Der Console Crawler Wizard erstellt eine Rolle für Sie. Die Rolle, die er erstellt, ist speziell für den Crawler bestimmt und umfasst die AWSGlueServiceRole AWS verwaltete Richtlinie sowie die erforderliche Inline-Richtlinie für die angegebene Datenquelle.

Wenn Sie eine vorhandene Rolle für einen Crawler angeben, stellen Sie sicher, dass dieser die AWSGlueServiceRole-Richtlinie oder eine gleichwertige Version dieser Richtlinie (oder eine abgespeckte Version) sowie die erforderlichen Inline-Richtlinien enthält. Für einen Amazon-S3-Datenspeicher wäre die Inline-Richtlinie beispielsweise mindestens die folgende:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Für einen Amazon-DynamoDB-Datenspeicher wäre die Richtlinie beispielsweise mindestens die folgende:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

Wenn der Crawler verschlüsselte Amazon S3 S3-Daten liest AWS Key Management Service (AWS KMS), muss die IAM-Rolle außerdem über die Entschlüsselungsberechtigung für den Schlüssel verfügen. AWS KMS Weitere Informationen finden Sie unter Schritt 2: Erstellen Sie eine IAM-Rolle für AWS Glue.