Création d'un catalogue géré par Amazon Redshift dans AWS Glue Data Catalog - AWS Lake Formation

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un catalogue géré par Amazon Redshift dans AWS Glue Data Catalog

Vous n'avez peut-être pas de cluster de producteurs Amazon Redshift ou de partage de données Amazon Redshift disponibles aujourd'hui, mais vous souhaitez créer et gérer des tables Amazon Redshift à l'aide du. AWS Glue Data Catalog Vous pouvez commencer par créer un catalogue AWS Glue géré à l'aide de l'glue:CreateCatalogAPI ou de la AWS Lake Formation console en définissant le type de catalogue Catalog source comme Redshift. Managed Cette étape permet d'effectuer les opérations suivantes :

  • Crée un catalogue dans le catalogue de données

  • Enregistre le catalogue en tant que localisation des données de Lake Formation

  • crée un groupe de travail sans serveur géré par Amazon Redshift

  • Lie le groupe de travail sans serveur Amazon Redshift et le catalogue de données à l'aide d'un objet de partage de données

Pour créer un catalogue géré et configurer des autorisations (console)
  1. Ouvrez la console Lake Formation à l'adresse https://console.aws.amazon.com/lakeformation/.

  2. Dans le volet de navigation, sélectionnez Catalogues sous Catalogue de données.

  3. Sélectionnez l'option Créer un catalogue.

  4. Sur la page de détails du catalogue, entrez les informations suivantes :

    • Nom : nom unique pour votre catalogue géré. Le nom ne peut pas être modifié et doit être en minuscules. Le nom peut comporter un maximum de 255 caractères. compte.

    • Type — Choisissez Managed catalog comme type de catalogue.

    • Stockage — Choisissez Redshift le stockage.

    • Description — Entrez une description pour le catalogue créé à partir de la source de données.

  5. Vous pouvez utiliser les applications Apache Spark exécutées sur Amazon EMR sur Amazon EC2 pour accéder aux bases de données Amazon Redshift dans le. AWS Glue Data Catalog

    Pour permettre à Apache Spark de lire et d'écrire sur le stockage géré Amazon Redshift, AWS Glue crée un cluster Amazon Redshift géré avec les ressources de calcul et de stockage nécessaires pour effectuer des opérations de lecture et d'écriture sans impact sur les charges de travail de l'entrepôt de données Amazon Redshift. Vous devez également fournir un rôle IAM avec les autorisations requises pour transférer des données vers et depuis le compartiment Amazon S3.

  6. Par défaut, les données du cluster Amazon Redshift sont chiffrées à l'aide d'une clé AWS gérée. Lake Formation propose une option pour créer votre clé KMS personnalisée à des fins de chiffrement. Si vous utilisez une clé gérée par le client, vous devez ajouter des politiques clés spécifiques à la clé.

  7. Choisissez l'option Personnaliser les paramètres de chiffrement si vous utilisez une clé gérée par le client pour chiffrer les données du stockage géré Amazon Redshift. Pour utiliser une clé personnalisée, vous devez ajouter une politique de clé gérée personnalisée supplémentaire à votre clé KMS. Pour de plus amples informations, veuillez consulter Conditions préalables à la gestion des espaces de noms Amazon Redshift dans AWS Glue Data Catalog.

  8. Options de chiffrement — Choisissez l'option Personnaliser les paramètres de chiffrement si vous souhaitez utiliser une clé personnalisée pour chiffrer le catalogue. Pour utiliser une clé personnalisée, vous devez ajouter une politique de clé gérée personnalisée supplémentaire à votre clé KMS.

  9. Choisissez Next pour accorder des autorisations aux autres principaux.

  10. Sur la page Accorder des autorisations, choisissez Ajouter des autorisations.

  11. Sur l'écran Ajouter des autorisations, choisissez les principes et les types d'autorisations à accorder.

    La page des autorisations du catalogue avec le type principal et les options de subvention.
    • Dans la section Principaux, choisissez un type de principal, puis spécifiez les principaux auxquels accorder les autorisations.

      • Utilisateurs et rôles IAM : choisissez un ou plusieurs utilisateurs ou rôles dans la liste des utilisateurs et rôles IAM.

      • Utilisateurs et groupes SAML : pour le SAML et Amazon QuickSight les utilisateurs et groupes, entrez un ou plusieurs Amazon Resource Names (ARNs) pour les utilisateurs ou les groupes fédérés via SAML, ou pour les utilisateurs ou groupes ARNs Amazon QuickSight . Appuyez sur Entrée après chaque ARN.

        Pour plus d'informations sur la façon de créer les ARNs, voir les AWS CLI commandes AWS CLI d'octroi et de révocation.

    • Dans la section Autorisations, sélectionnez les autorisations et les autorisations pouvant être accordées.

      Sous Autorisations du catalogue, sélectionnez une ou plusieurs autorisations à accorder.

      Choisissez Super user pour accorder des autorisations administratives illimitées sur toutes les ressources du catalogue.

      Sous Autorisations pouvant être accordées, sélectionnez les autorisations que le bénéficiaire de la subvention peut accorder aux autres principaux de son compte. AWS Cette option n'est pas prise en charge lorsque vous accordez des autorisations à un directeur IAM à partir d'un compte externe.

  12. Choisissez Next pour consulter les informations et créer le catalogue. La liste des catalogues affiche le nouveau catalogue géré.

Pour créer un catalogue fédéré (CLI)
  • L'exemple suivant montre comment créer un catalogue fédéré.

    aws glue create-catalog --cli-input-json file://input.json { "Name": "CatalogName", "CatalogInput": { "Description": "Redshift published Catalog", "CreateDatabaseDefaultPermissions" : [], "CreateTableDefaultPermissions": [], "CatalogProperties": { "DataLakeAccessProperties" : { "DataLakeAccess" : "true", "DataTransferRole" : "DTR arn", "KMSKey": "kms key arn", // Optional "CatalogType": "aws:redshift" } } } }

    Réponse de Glue Get-Catalog

    aws glue get-catalog --name catalogName Response: { "Catalog": { "Name": "CatalogName", "Description": "Glue Catalog for Redshift z-etl use case", "CreateDatabaseDefaultPermissions" : [], "CreateTableDefaultPermissions": [], "CatalogProperties": { "DataLakeAccessProperties" : { "DataLakeAccess": "true", "DataTransferRole": "DTR arn", "KMSKey": "kms key arn", "ManagedWorkgroupName": "MWG name", "ManagedWorkgroupStatus": "MWG status", "RedshiftDatabaseName": "RS db name", "NamespaceArn": "namespace key arn", "CatalogType": "aws:redshift" } } }