Commencez avec les entrepôts de données sans serveur Amazon Redshift - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Commencez avec les entrepôts de données sans serveur Amazon Redshift

Si vous utilisez Amazon Redshift Serverless pour la première fois, nous vous recommandons de lire les sections suivantes pour vous aider à faire vos premiers pas avec Amazon Redshift Serverless. Le flux de base d'Amazon Redshift sans serveur consiste à créer des ressources sans serveur, à se connecter à Amazon Redshift sans serveur, à charger des exemples de données, puis à exécuter des requêtes sur les données. Dans ce guide, vous pouvez choisir de charger des exemples de données à partir d'Amazon Redshift sans serveur ou d'un compartiment Amazon S3. Les exemples de données sont utilisés dans l'ensemble de la documentation Amazon Redshift pour démontrer les fonctionnalités. Pour commencer à utiliser les entrepôts de données provisionnés par Amazon Redshift, consultez. Commencez avec les entrepôts de données provisionnés Amazon Redshift

S'inscrire à AWS

Si vous n'avez pas encore de AWS compte, créez-en un. Si vous disposez déjà d’un compte, vous pouvez ignorer ce prérequis et utiliser votre compte existant.

  1. Ouvrez l'https://portal.aws.amazon.com/billing/inscription.

  2. Suivez les instructions en ligne.

    Lorsque vous créez un AWS compte, un AWS utilisateur root est créé. L'utilisateur root a accès à tous les AWS services et ressources du compte. En tant que bonne pratique de sécurité, attribuer un accès administratif à un utilisateur administratif, et utilisez uniquement l'utilisateur root pour effectuer tâches nécessitant un accès utilisateur root.

Création d'un entrepôt des données avec Amazon Redshift sans serveur

La première fois que vous vous connectez à la console Amazon Redshift sans serveur, vous êtes invité à accéder à l'expérience de démarrage, que vous pouvez utiliser pour créer et gérer des ressources sans serveur. Dans ce guide, vous allez créer des ressources sans serveur en utilisant les paramètres par défaut d'Amazon Redshift sans serveur.

Pour un contrôle plus précis de votre configuration, choisissez Personnaliser les paramètres.

Note

Redshift Serverless nécessite un Amazon VPC doté de trois sous-réseaux répartis dans trois zones de disponibilité différentes. Redshift Serverless nécessite également au moins 37 adresses IP disponibles. Assurez-vous que l'Amazon VPC que vous utilisez pour Redshift Serverless possède trois sous-réseaux dans trois zones de disponibilité différentes, et qu'il possède au moins 37 adresses IP disponibles, avant de continuer. Pour plus d'informations sur la création de sous-réseaux dans un AmazonVPC, consultez la section Créer un sous-réseau dans le guide de l'utilisateur d'Amazon Virtual Private Cloud. Pour plus d'informations sur les adresses IP d'un AmazonVPC, consultez la section Adressage IP pour vos sous-réseaux VPCs et sous-réseaux.

Pour configurer avec les paramètres par défaut :
  1. Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/

    Choisissez Essayer l'essai gratuit de Redshift Serverless.

  2. Sous Configuration, choisissez Utiliser les paramètres par défaut. Amazon Redshift Serverless crée un espace de noms par défaut avec un groupe de travail par défaut associé à cet espace de noms. Choisissez Save configuration.

    Note

    Un namespace est un ensemble d'objets et d'utilisateurs de base de données. Les espaces de noms regroupent toutes les ressources que vous utilisez dans Redshift Serverless, telles que les schémas, les tables, les utilisateurs, les partages de données et les instantanés.

    Un groupe de travail est un ensemble de ressources informatiques. Les groupes de travail hébergent des ressources informatiques que Redshift Serverless utilise pour exécuter des tâches informatiques.

    La capture d'écran suivante présente les paramètres par défaut d'Amazon Redshift sans serveur.

    Choisissez les paramètres par défaut pour utiliser les paramètres par défaut d'Amazon Redshift sans serveur.
  3. Une fois la configuration terminée, cliquez sur Continue (Continuer) pour accéder à votre Serverless dashboard (Tableau de bord sans serveur). Vous pouvez constater que le groupe de travail et l'espace de noms sans serveur sont disponibles.

    Une fois la configuration terminée, le groupe de travail et l'espace de noms sont disponibles.
    Note

    Si Redshift Serverless ne parvient pas à créer le groupe de travail, vous pouvez effectuer les opérations suivantes :

    • Corrigez toutes les erreurs signalées par Redshift Serverless, telles que le nombre insuffisant de sous-réseaux sur votre Amazon. VPC

    • Supprimez l'espace de noms en choisissant default-namespace dans le tableau de bord Redshift Serverless, puis en choisissant Actions, Supprimer l'espace de noms. La suppression d'un espace de noms prend plusieurs minutes.

    • Lorsque vous ouvrez à nouveau la console Redshift Serverless, l'écran de bienvenue apparaît.

Chargement d’exemples de données

Maintenant que vous avez configuré votre entrepôt des données avec Amazon Redshift sans serveur, vous pouvez utiliser l'éditeur de requête d'Amazon Redshift v2 pour charger des exemples de données.

  1. Pour lancer l'éditeur de requête v2 à partir de la console Amazon Redshift sans serveur, choisissez Interroger les données. Lorsque vous appelez l'éditeur de requête v2 à partir de la console Amazon Redshift Serverless, un nouvel onglet du navigateur s'ouvre avec l'éditeur de requête. L'éditeur de requête v2 se connecte depuis votre ordinateur client à l'environnement Amazon Redshift sans serveur.

    Le bouton d'interrogation des données dans la console Amazon Redshift sans serveur lance l'éditeur de requête v2.
  2. Pour ce guide, vous allez utiliser votre compte AWS administrateur et le compte par défaut AWS KMS key. Pour plus d'informations sur la configuration de l'éditeur de requêtes v2, y compris les autorisations nécessaires, consultez la section Configuration de votre Compte AWS dans le guide de gestion Amazon Redshift. Pour plus d'informations sur la configuration d'Amazon Redshift pour utiliser une clé gérée par le client ou pour modifier la KMS clé utilisée par Amazon Redshift, consultez Modification de AWS KMS la clé d'un espace de noms.

  3. Pour vous connecter à un groupe de travail, sélectionnez le nom du groupe de travail dans le panneau d'arborescence.

    Pour vous connecter à un groupe de travail, sélectionnez le nom du groupe de travail dans le panneau d'arborescence.
  4. Lorsque vous vous connectez à un nouveau groupe de travail pour la première fois dans l'éditeur de requête v2, vous devez sélectionner le type d'authentification à utiliser pour vous connecter au groupe de travail. Pour ce guide, laissez l'option Utilisateur fédéré sélectionnée et choisissez Créer une connexion.

    Vous pouvez choisir de vous connecter à l'aide d'un mot de passe temporaire ou d'une combinaison de nom d'utilisateur et de mot de passe de la base de données.

    Une fois connecté, vous pouvez choisir de charger des exemples de données à partir d'Amazon Redshift sans serveur ou d'un compartiment Amazon S3.

  5. Dans le groupe de travail par défaut Amazon Redshift sans serveur, développez la base de données sample_data_dev. Il existe trois schémas types correspondant à trois jeux de données types que vous pouvez charger dans la base de données Amazon Redshift sans serveur. Choisissez l'exemple de jeu de données que vous souhaitez charger, puis sélectionnez Ouvrir les exemples de blocs-notes.

    Développez la base de données sample_data_dev, puis sélectionnez le schéma que vous souhaitez charger.
    Note

    Un SQL bloc-notes est un conteneur pour SQL les cellules Markdown. Vous pouvez utiliser des blocs-notes pour organiser, annoter et partager plusieurs SQL commandes dans un seul document.

  6. Lorsque vous chargez des données pour la première fois, l'éditeur de requête v2 vous invite à créer une base de données d'exemple. Sélectionnez Create (Créer).

    Fenêtre de dialogue invitant à créer un exemple de base de données.

Exécution d'exemples de requêtes

Après avoir configuré Amazon Redshift sans serveur, vous pouvez commencer à utiliser un exemple de jeu de données dans Amazon Redshift sans serveur. Amazon Redshift sans serveur charge automatiquement le jeu de données d'exemple, tel que le jeu de données tickit, et vous pouvez immédiatement interroger les données.

  • Une fois qu'Amazon Redshift sans serveur a fini de charger les exemples de données, tous les exemples de requêtes sont chargés dans l'éditeur. Vous pouvez choisir Exécuter tout pour exécuter toutes les requêtes des exemples de blocs-notes.

    Cliquez sur le bouton Exécuter tout pour exécuter tous les exemples de requêtes.

    Vous pouvez également exporter les résultats sous forme de JSON CSV fichier OR ou les afficher sous forme de graphique.

    Le bouton Exporter dans Query Editor v2, à côté du bouton Afficher le graphique.

Vous pouvez également charger des données à partir d'un compartiment Amazon S3. Pour en savoir plus, veuillez consulter Chargement de données depuis Amazon S3.

Chargement de données depuis Amazon S3

Après avoir créé votre entrepôt des données, vous pouvez charger des données depuis Amazon S3.

À ce stade, vous disposez d'une base de données nommée dev. Ensuite, créez des tables dans la base de données, chargez des données dans les tables et essayez d'exécuter une requête. Pour plus de commodité, les exemples de données que vous chargez sont disponibles dans un compartiment Amazon S3.

  1. Avant de charger des données depuis Amazon S3, vous devez d'abord créer un IAM rôle doté des autorisations nécessaires et l'associer à votre espace de noms sans serveur. Pour ce faire, choisissez Configuration de l'espace de noms dans le menu de navigation, choisissez votre espace de noms, puis sélectionnez Sécurité et chiffrement. Choisissez ensuite Gérer les IAM rôles.

    Sur la page de configuration de l'espace de noms, choisissez Sécurité et chiffrement, puis sélectionnez Gérer les IAM rôles.
  2. Développez le menu Gérer IAM les rôles, puis choisissez Créer un IAM rôle.

    Développez le menu Gérer IAM les rôles, puis choisissez Créer un IAM rôle.
  3. Choisissez le niveau d'accès au compartiment S3 que vous souhaitez accorder à ce rôle, puis choisissez Create IAM role par défaut.

    Créez un IAM rôle à utiliser comme rôle par défaut.
  4. Sélectionnez Enregistrer les modifications. Vous pouvez désormais charger des exemples de données à partir d'Amazon S3.

Les étapes suivantes utilisent les données d'un compartiment Amazon Redshift S3 public, mais vous pouvez répliquer les mêmes étapes à l'aide de votre propre compartiment S3 et de vos propres commandes. SQL

Charger un exemple de données à partir d'Amazon S3
  1. Dans l'éditeur de requêtes v2, choisissez The add button, represented by a plus sign. Ajouter, puis Notebook pour créer un nouveau SQL bloc-notes.

    Créez un nouveau bloc-notes dans l'éditeur de requêtes v2.
  2. Passez à la base de données dev.

    Passez à la base de données dev pour charger des données à partir d'un compartiment S3.
  3. Créez des tables.

    Si vous utilisez l'éditeur de requête v2, copiez et exécutez les instructions create table suivantes pour créer des tables dans la base de données dev. Pour plus d'informations sur la syntaxe, consultez CREATETABLEle manuel Amazon Redshift Database Developer Guide.

    create table users( userid integer not null distkey sortkey, username char(8), firstname varchar(30), lastname varchar(30), city varchar(30), state char(2), email varchar(100), phone char(14), likesports boolean, liketheatre boolean, likeconcerts boolean, likejazz boolean, likeclassical boolean, likeopera boolean, likerock boolean, likevegas boolean, likebroadway boolean, likemusicals boolean); create table event( eventid integer not null distkey, venueid smallint not null, catid smallint not null, dateid smallint not null sortkey, eventname varchar(200), starttime timestamp); create table sales( salesid integer not null, listid integer not null distkey, sellerid integer not null, buyerid integer not null, eventid integer not null, dateid smallint not null sortkey, qtysold smallint not null, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp);
  4. Dans l'éditeur de requêtes v2, créez une nouvelle SQL cellule dans votre bloc-notes.

    Créez une nouvelle SQL cellule dans l'éditeur de requêtes v2 pour exécuter SQL des commandes.
  5. Utilisez maintenant la COPY commande dans l'éditeur de requêtes v2 pour charger des ensembles de données volumineux depuis Amazon S3 ou Amazon DynamoDB dans Amazon Redshift. Pour plus d'informations sur COPY la syntaxe, consultez le COPYmanuel Amazon Redshift Database Developer Guide.

    Vous pouvez exécuter la COPY commande avec des exemples de données disponibles dans un compartiment S3 public. Exécutez les SQL commandes suivantes dans l'éditeur de requêtes v2.

    COPY users FROM 's3://redshift-downloads/tickit/allusers_pipe.txt' DELIMITER '|' TIMEFORMAT 'YYYY-MM-DD HH:MI:SS' IGNOREHEADER 1 REGION 'us-east-1' IAM_ROLE default; COPY event FROM 's3://redshift-downloads/tickit/allevents_pipe.txt' DELIMITER '|' TIMEFORMAT 'YYYY-MM-DD HH:MI:SS' IGNOREHEADER 1 REGION 'us-east-1' IAM_ROLE default; COPY sales FROM 's3://redshift-downloads/tickit/sales_tab.txt' DELIMITER '\t' TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' IGNOREHEADER 1 REGION 'us-east-1' IAM_ROLE default;
  6. Après avoir chargé les données, créez une autre SQL cellule dans votre bloc-notes et essayez quelques exemples de requêtes. Pour plus d'informations sur l'utilisation de la SELECT commande, consultez le SELECTmanuel Amazon Redshift Developer Guide. Pour comprendre la structure et les schémas des données de l'échantillon, explorez l'éditeur de requête v2.

    -- Find top 10 buyers by quantity. SELECT firstname, lastname, total_quantity FROM (SELECT buyerid, sum(qtysold) total_quantity FROM sales GROUP BY buyerid ORDER BY total_quantity desc limit 10) Q, users WHERE Q.buyerid = userid ORDER BY Q.total_quantity desc; -- Find events in the 99.9 percentile in terms of all time gross sales. SELECT eventname, total_price FROM (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile FROM (SELECT eventid, sum(pricepaid) total_price FROM sales GROUP BY eventid)) Q, event E WHERE Q.eventid = E.eventid AND percentile = 1 ORDER BY total_price desc;

Maintenant que vous avez chargé des données et exécuté quelques exemples de requêtes, vous pouvez explorer d'autres domaines d'Amazon Redshift sans serveur. Consultez la liste suivante pour en savoir plus sur la manière dont vous pouvez utiliser Amazon Redshift sans serveur.

  • Vous pouvez charger des données à partir d'un compartiment Amazon S3. Pour plus d'informations, consultez Chargement des données à partir d'Amazon S3.

  • Vous pouvez utiliser l'éditeur de requête v2 pour charger des données à partir d'un fichier local séparé par des caractères et d'une taille inférieure à 5 Mo. Pour plus d'informations, consultez Chargement de données à partir d'un fichier local.

  • Vous pouvez vous connecter à Amazon Redshift Serverless à l'aide d'SQLoutils tiers dotés du JDBC pilote and. ODBC Pour plus d'informations, consultez Connexion à Amazon Redshift sans serveur.

  • Vous pouvez également utiliser les données Amazon Redshift pour vous connecter API à Amazon Redshift Serverless. Consultez la section Utilisation des données Amazon Redshift API pour plus d'informations.

  • Vous pouvez utiliser vos données dans Amazon Redshift Serverless avec Redshift ML pour créer des modèles d'apprentissage automatique à l'aide de la commande. CREATE MODEL Consultez Tutoriel : création de modèles de désabonnement des clients pour apprendre à élaborer un modèle ML Redshift.

  • Vous pouvez interroger les données d'un lac de données Amazon S3 sans charger de données dans Amazon Redshift sans serveur. Pour plus d'informations, consultez Interrogation d'un lac de données.