Requisitos previos del rastreador - AWS Glue

Requisitos previos del rastreador

El rastreador asume los permisos del rol de AWS Identity and Access Management (IAM) que se especifican al definirlo. Este rol de IAM debe tener permisos para extraer datos de su almacén de datos y escribir al Catálogo de datos. En la consola de AWS Glue solo se listan roles de IAM que tienen asociada una política de confianza para el servicio principal de AWS Glue. En la consola, también puede crear un rol de IAM con una política de IAM para obtener acceso a almacenes de datos de Amazon S3 a los que obtiene acceso el rastreador. Para obtener más información acerca de cómo proporcionar roles para AWS Glue, consulte Políticas basadas en la identidad para Glue AWS.

nota

Al rastrear un almacén de datos de Delta Lake, debe tener permisos de lectura y escritura en la ubicación de Simple Storage Service (Amazon S3).

Puede crear un rol para su rastreador y asociar las siguientes políticas:

  • La política AWSGlueServiceRole administrada por AWS, que concede los permisos necesarios en el Catálogo de datos

  • Política en línea que concede permisos en el origen de datos.

  • Política en línea que concede permisos de iam:PassRole al rol.

Un enfoque más rápido es dejar que el asistente de rastreadores de la consola de AWS Glue cree un rol para usted. El rol que crea es específicamente para el rastreador e incluye la política AWSGlueServiceRole administrada por AWS, más la política en línea necesaria para el origen de datos especificado.

Si especifica un rol existente para un rastreador, asegúrese de que incluya la política AWSGlueServiceRole o equivalente (o una versión reducida de esta política), además de las políticas en línea requeridas. Por ejemplo, para un almacén de datos de Amazon S3, la política en línea sería, como mínimo, la siguiente:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Para un almacén de datos de Amazon DynamoDB, la política sería, como mínimo, la siguiente:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

Si el rastreador lee datos de Amazon S3 cifrados por AWS Key Management Service (AWS KMS), entonces el rol de IAM debe tener permiso para descifrar la clave AWS KMS. Para obtener más información, consulte Paso 2: creación de un rol de IAM para AWS Glue.