Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation des tables du catalogue de données pour la source de données
Pour toutes les sources de données, à l'exception d'Amazon S3 et des connecteurs, une table doit exister dans AWS Glue Data Catalog pour le type de source que vous choisissez. AWS Glue ne crée pas la table de catalogue de données.
Pour configurer un nœud de source de données basé sur une table de catalogue de données
-
Accédez à l'éditeur visuel pour une tâche nouvelle ou sauvegardée.
-
Choisissez un nœud de source de données dans le diagramme de tâche.
-
Choisissez l'onglet Data source properties (Propriétés de source de données), puis saisissez les informations suivantes :
-
S3 source type (Type de source S3) : (pour les sources de données Amazon S3 uniquement) choisissez l'option Select a Catalog table (Sélectionner une table de catalogue) pour utiliser une table AWS Glue Data Catalog existante.
-
Database (Base de données) : choisissez la base de données dans le catalogue de données qui contient la table source que vous souhaitez utiliser pour cette tâche. Vous pouvez utiliser le champ de recherche pour rechercher une base de données par son nom.
-
Table : choisissez la table associée aux données source depuis la liste. Cette table doit déjà exister dans AWS Glue Data Catalog. Vous pouvez utiliser le champ de recherche pour rechercher une table par son nom.
-
Partition predicate (Prédicat de partition) : (pour les sources de données Amazon S3 uniquement) saisissez une expression booléenne basée sur Spark SQL qui inclut uniquement les colonnes de partitionnement. Par exemple :
"(year=='2020' and month=='04')"
-
Temporary directory (Répertoire temporaire) : (pour les sources de données Amazon Redshift uniquement) saisissez un chemin d'accès pour l'emplacement d'un répertoire de travail dans Amazon S3 où votre tâche ETL peut écrire des résultats intermédiaires temporaires.
-
Role associated with the cluster (Rôle associé au cluster) : (pour les sources de données Amazon Redshift uniquement) saisissez un rôle que votre tâche ETL doit utiliser qui contient des autorisations pour les clusters Amazon Redshift. Pour de plus amples informations, veuillez consulter Autorisations de source et de cible de données.
-