Commencez avec les entrepôts de données provisionnés Amazon Redshift

Mode de mise au point

Commencez avec les entrepôts de données provisionnés Amazon Redshift - Amazon Redshift

S'inscrire à AWS Déterminer les règles de pare-feu Étape 1 : Créer un exemple de cluster Étape 2 : Configurer les règles entrantes pour les clients SQL Étape 3 : accorder l'accès à un client SQL et exécuter des requêtes Étape 4 : Charger les données d’Amazon S3 vers Amazon Redshift Étape 5 : Essayer des exemples de requêtes à l’aide de l’éditeur de requêtes Étape 6 : Réinitialiser votre environnement

Si vous utilisez Amazon Redshift pour la première fois, nous vous recommandons de lire les sections suivantes pour vous aider à commencer à utiliser des clusters provisionnés. Le flux de base d'Amazon Redshift consiste à créer des ressources provisionnées, à se connecter à Amazon Redshift, à charger des échantillons de données, puis à exécuter des requêtes sur les données. Dans ce guide, vous pouvez choisir de charger des exemples de données depuis Amazon Redshift ou depuis un compartiment Amazon S3. Les exemples de données sont utilisés dans l'ensemble de la documentation Amazon Redshift pour démontrer les fonctionnalités.

Ce didacticiel explique comment utiliser les clusters provisionnés Amazon Redshift, qui sont des objets d'entrepôt de AWS données pour lesquels vous gérez les ressources système. Vous pouvez également utiliser Amazon Redshift avec des groupes de travail sans serveur, qui sont des objets d'entrepôt de données qui évoluent automatiquement en fonction de l'utilisation. Pour commencer à utiliser Redshift Serverless, consultez. Commencez avec les entrepôts de données sans serveur Amazon Redshift

Après avoir créé et connecté la console provisionnée Amazon Redshift, vous pouvez créer et gérer des objets Amazon Redshift, notamment des clusters, des nœuds et des bases de données. Vous pouvez également exécuter des requêtes, afficher des requêtes et effectuer d'autres opérations en langage de définition de données (DDL) et en langage de manipulation de données (DML) SQL avec un client SQL.

Important

Le cluster que vous configurez pour cet exercice s'exécute dans un environnement réel. Tant qu'il fonctionne, il vous est facturé Compte AWS. Pour obtenir des informations sur les prix, consultez la page de tarification Amazon Redshift.

Pour éviter des frais inutiles, supprimez votre cluster lorsque vous avez terminé. La dernière section de ce chapitre explique comment procéder.

Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/

Nous vous recommandons de commencer par accéder au tableau de bord des clusters provisionnés pour commencer à utiliser la console Amazon Redshift.

En fonction de votre configuration, les éléments suivants apparaissent dans le volet de navigation de la console provisionnée Amazon Redshift :

Redshift Serverless : accédez aux données et analysez-les sans avoir à configurer, régler et gérer les clusters provisionnés par Amazon Redshift.
Tableau de bord des clusters provisionnés : consultez la liste des clusters présents dans votre compte Région AWS, consultez les métriques du cluster et la vue d'ensemble des requêtes pour obtenir des informations sur les mesures (telles que l'utilisation du processeur) et des informations de requête. Leur utilisation peut vous aider à déterminer si vos données de performances sont anormales sur une plage de temps spécifiée.
Clusters : affichez votre liste de clusters dans ce document Région AWS, choisissez un cluster pour commencer à interroger ou effectuez des actions liées au cluster. Vous pouvez également créer un cluster à partir de cette page.
Éditeur de requêtes : exécutez des requêtes sur des bases de données hébergées sur votre cluster Amazon Redshift. Nous vous recommandons d'utiliser plutôt l'éditeur de requêtes v2.
Éditeur de requêtes v2 — L'éditeur de requêtes Amazon Redshift v2 est une application client SQL Web distincte permettant de créer et d'exécuter des requêtes sur votre entrepôt de données Amazon Redshift. Vous pouvez visualiser vos résultats dans des diagrammes et collaborer en partageant vos requêtes avec d’autres membres de votre équipe.
Queries and loads (Requêtes et charges) : obtenez des informations à des fins de référence ou de dépannage, telles qu’une liste de requêtes récentes et le texte SQL de chaque requête.
Unités de partage des données : un administrateur de compte producteur peut autoriser des comptes consommateur à accéder à des unités de partage des données ou choisir de ne pas autoriser l’accès. Pour utiliser un partage de données autorisé, un administrateur de compte client peut associer le partage de données à un espace de noms de cluster complet Compte AWS ou spécifique d'un compte. Un administrateur peut également refuser une unité de partage des données.
Intégrations sans ETL : gérez les intégrations qui rendent les données transactionnelles disponibles dans Amazon Redshift après avoir été écrites dans des sources prises en charge.
Connexions IAM Identity Center : configurez la connexion entre Amazon Redshift et IAM Identity Center.
Configurations : connectez-vous aux clusters Amazon Redshift depuis les outils client SQL via des connexions Java Database Connectivity (JDBC) et Open Database Connectivity (ODBC). Vous pouvez également configurer un point de terminaison de cloud privé virtuel (VPC) géré par Amazon Redshift. Cela permet d’établir une connexion privée entre un VPC basé sur le service Amazon VPC qui contient un cluster et un autre VPC exécutant un outil client.
AWS Intégration des partenaires : créez une intégration avec un AWS partenaire pris en charge.
Advisor (Conseiller) : obtenez des recommandations spécifiques concernant les modifications que vous pouvez apporter à votre cluster Amazon Redshift afin de prioriser vos optimisations.
AWS Marketplace : obtenez des informations sur les autres outils ou AWS services compatibles avec Amazon Redshift.
Alarms (Alarmes) : créez des alarmes sur les métriques de cluster pour afficher les données de performance et suivre les métriques sur une période que vous spécifiez.
Events (Événements) : suivez les événements et obtenez des rapports sur des informations telles que la date à laquelle l’événement s’est produit, une description ou la source de l’événement.
What’s new (Nouveautés) : consultez les nouvelles fonctions et les mises à jour des produits Amazon Redshift.

Dans ce tutoriel, vous exécuterez les étapes suivantes.

Les étapes de ce didacticiel, décrites ci-dessous

Rubriques

S'inscrire à AWS
Déterminer les règles de pare-feu
Étape 1 : Créer un exemple de cluster Amazon Redshift
Étape 2 : Configurer les règles entrantes pour les clients SQL
Étape 3 : accorder l'accès à un client SQL et exécuter des requêtes
Étape 4 : Charger les données d’Amazon S3 vers Amazon Redshift
Étape 5 : Essayer des exemples de requêtes à l’aide de l’éditeur de requêtes
Étape 6 : Réinitialiser votre environnement

Si vous n'en avez pas encore Compte AWS, inscrivez-vous. Si vous disposez déjà d’un compte, vous pouvez ignorer ce prérequis et utiliser votre compte existant.

Ouvrez l'https://portal.aws.amazon.com/billing/inscription.
Suivez les instructions en ligne.

Dans le cadre de la procédure d’inscription, vous recevrez un appel téléphonique et vous saisirez un code de vérification en utilisant le clavier numérique du téléphone.

Lorsque vous vous inscrivez à un Compte AWS, un Utilisateur racine d'un compte AWSest créé. Par défaut, seul l’utilisateur racine a accès à l’ensemble des Services AWS et des ressources de ce compte. La meilleure pratique de sécurité consiste à attribuer un accès administratif à un utilisateur, et à utiliser uniquement l’utilisateur racine pour effectuer les tâches nécessitant un accès utilisateur racine.

Déterminer les règles de pare-feu

Note

Ce didacticiel part du principe que votre cluster utilise le port par défaut 5439 et que l'éditeur de requêtes Amazon Redshift v2 peut être utilisé pour exécuter des commandes SQL. Il n'entre pas dans les détails des configurations réseau ou de la configuration d'un client SQL qui pourrait être nécessaire dans votre environnement.

Dans certains environnements, vous spécifiez un port lorsque vous lancez votre cluster Amazon Redshift. Vous utilisez ce port ainsi que l'URL du point de terminaison du cluster pour accéder au cluster. Vous créez également une règle de trafic entrant dans un groupe de sécurité afin de permettre l’accès à votre cluster via le port.

Si votre ordinateur client se trouve derrière un pare-feu, assurez-vous de connaître un port ouvert que vous pouvez utiliser. Ce port ouvert vous permet de vous connecter au cluster à partir d’un outil client SQL et d’exécuter les requêtes. Si vous ne connaissez pas de port ouvert, travaillez avec quelqu’un qui comprend vos règles de pare-feu réseau afin de déterminer un port ouvert dans votre pare-feu.

Bien qu’Amazon Redshift utilise le port 5439 par défaut, la connexion ne fonctionne pas si ce port n’est pas ouvert dans votre pare-feu. Vous ne pouvez pas modifier le numéro de port de votre cluster Amazon Redshift après sa création. Par conséquent, assurez-vous que vous spécifiez un port ouvert qui fonctionne dans votre environnement au cours de la procédure de lancement.

Étape 1 : Créer un exemple de cluster Amazon Redshift

Dans ce didacticiel, vous allez suivre le processus de création d'un cluster Amazon Redshift avec une base de données. Ensuite, vous chargez un ensemble de données depuis Amazon S3 dans les tables de votre base de données. Vous pouvez utiliser cet exemple de cluster pour évaluer le service Amazon Redshift.

Avant de commencer à configurer un cluster Amazon Redshift, assurez-vous de remplir toutes les conditions requises, telles que et. S'inscrire à AWS Déterminer les règles de pare-feu

Pour toute opération qui accède aux données d'une autre AWS ressource, votre cluster doit être autorisé à accéder à la ressource et aux données de la ressource en votre nom. Par exemple, une commande SQL COPY est utilisée pour charger des données depuis Amazon Simple Storage Service (Amazon S3). Vous fournissez ces autorisations en utilisant AWS Identity and Access Management (IAM). Vous pouvez le faire par le biais d'un rôle IAM que vous créez et associez à votre cluster. Pour plus d'informations sur les informations d'identification et les autorisations d'accès, consultez la section Informations d'identification et autorisations d'accès dans le manuel Amazon Redshift Database Developer Guide.

Pour créer un cluster Amazon Redshift

Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/

Important
Si vous utilisez les informations d’identification utilisateur IAM, vérifiez que l’utilisateur dispose des autorisations nécessaires pour exécuter les opérations de cluster. Pour plus d'informations, consultez la section Sécurité dans Amazon Redshift dans le guide de gestion Amazon Redshift.
Sur la AWS console, choisissez l' Région AWS endroit où vous souhaitez créer le cluster.
Dans le menu de navigation, choisissez Clusters, puis choisissez Créer un cluster. La page Créer un cluster s’affiche.
Dans la section Cluster configuration (Configuration du cluster), spécifiez les valeurs Cluster identifier (Identifiant du cluster), du Node type (Type de nœud) et Nodes (Nœuds) :
- Cluster identifier (Identifiant du cluster) : saisissez examplecluster pour ce didacticiel. Cet identifiant doit être unique. Il doit comporter de 1 à 63 caractères et doit être composé des caractères valides suivants : a–z (minuscules uniquement) et - (trait d’union).
- Choisissez l’une des méthodes suivantes pour dimensionner votre cluster :
  
  Note
  L'étape suivante suppose un Région AWS qui prend en charge les types de RA3 nœuds. Pour obtenir la liste des types de RA3 nœuds Régions AWS compatibles, consultez la section Présentation des types de RA3 nœuds dans le guide de gestion Amazon Redshift. Pour en savoir plus sur les spécifications de chaque type et taille de nœud, consultez Détails du type de nœud.
  - Si vous ne savez pas quelle taille donner à votre cluster, choisissez Help me choose (Aidez-moi à choisir). Cela ouvre un calculateur de dimensionnement qui vous pose des questions sur la taille et les caractéristiques de requête des données que vous prévoyez de stocker dans votre entrepôt de données.
    
    Si vous connaissez la taille requise de votre cluster (c’est-à-dire le type et le nombre de nœuds), choisissez I’ll choose (Je vais choisir). Choisissez ensuite la valeur Node type (Type de nœud) et le nombre de Nodes (Nœuds) pour dimensionner votre cluster.
    
    Pour ce didacticiel, choisissez ra3.4xlarge pour le type de nœud et 2 pour le nombre de nœuds.
    
    Si un choix de configuration AZ est disponible, choisissez Single-AZ.
  - Pour utiliser l’exemple de jeu de données fourni par Amazon Redshift, dans Sample data (Exemples de données), choisissez Load sample data (Charger les exemples de données). Amazon Redshift charge l’exemple de jeu de données Tickit dans la base de données dev et le schéma public par défaut.
Dans la section Configuration de la base de données, spécifiez une valeur pour Nom de l’utilisateur administrateur. Pour Mot de passe administrateur, choisissez l’une des options suivantes :
- Générez un mot de passe : utilisez un mot de passe généré par Amazon Redshift.
- Ajouter manuellement un mot de passe d’administrateur : utilisez votre propre mot de passe.
- Gérez les informations d'identification d'administrateur dans AWS Secrets Manager : Amazon Redshift les utilise AWS Secrets Manager pour générer et gérer votre mot de passe d'administrateur. L'utilisation AWS Secrets Manager pour générer et gérer le secret de votre mot de passe entraîne des frais. Pour en savoir plus sur la tarification AWS Secrets Manager , consultez Tarification d’AWS Secrets Manager.
Dans le cadre de ce didacticiel, utilisez les valeurs suivantes :
- Admin user name (Nom de l’utilisateur Admin) : saisissez awsuser.
- Mot de passe de l'utilisateur administrateur : entrez Changeit1 le mot de passe.
Pour ce didacticiel, créez un rôle IAM et définissez-le comme rôle par défaut pour votre cluster, comme décrit ci-dessous. Il ne peut y avoir qu’un seul rôle IAM par défaut défini pour un cluster.
1. Sous Cluster permissions (Autorisations de cluster), pour Manage IAM roles (Gérer les rôles IAM), choisissez Create IAM role (Créer un rôle IAM).
2. Spécifiez un compartiment Amazon S3 auquel le rôle IAM doit accéder à l’aide de l’une des méthodes suivantes :
  - Choisissez Pas de compartiment Amazon S3 supplémentaire pour permettre au rôle IAM créé d’accéder uniquement aux compartiments Amazon S3 nommés en tant que redshift.
  - Choisissez N’importe quel compartiment Amazon S3 pour permettre au rôle IAM créé d’accéder à tous les compartiments Amazon S3.
  - Choisissez Specific Amazon S3 buckets (Compartiments Amazon S3 spécifiques) pour spécifier un ou plusieurs compartiments Amazon S3 pour le rôle IAM en cours de création est autorisé à accéder. Choisissez ensuite un ou plusieurs compartiments Amazon S3 dans le tableau.
3. Choisissez Create IAM role as default (Créer un rôle IAM par défaut). Amazon Redshift crée et définit automatiquement le rôle IAM comme rôle par défaut pour votre cluster.
  
  Étant donné que vous avez créé votre rôle IAM à partir de la console, il a la politique AmazonRedshiftAllCommandsFullAccess attachée. Cela permet à Amazon Redshift de copier, de charger, d’interroger et d’analyser des données provenant des ressources Amazon dans votre compte IAM.
Pour plus d'informations sur la façon de gérer le rôle IAM par défaut pour un cluster, consultez la section Création d'un rôle IAM par défaut pour Amazon Redshift dans le guide de gestion Amazon Redshift.
(Facultatif) Dans la section Additional configurations (Configurations supplémentaires), désactivez l’option Use defaults (Utiliser les valeurs par défaut) pour modifier les paramètres Network and security (Réseau et sécurité), Database configuration (Configuration de la base de données), Maintenance, Monitoring (Surveillance) et Backup (Sauvegarde).

Dans certains cas, vous pouvez créer votre cluster avec l’option Load sample data (Charger des exemples de données) et souhaiter activer le routage Amazon VPC amélioré. Si c’est le cas, le cluster de votre cloud privé virtuel (VPC) nécessite l’accès au point de terminaison Amazon S3 pour que les données soient chargées.

Pour rendre le cluster accessible au public, vous pouvez effectuer l’une des deux actions suivantes. Vous pouvez configurer une traduction d’adresses réseau (NAT) dans votre VPC pour que le cluster puisse accéder à Internet. Vous pouvez également configurer un point de terminaison d’un VPC Amazon S3 dans votre VPC. Pour plus d'informations sur le routage Amazon VPC amélioré, consultez la section Routage Amazon VPC amélioré dans le guide de gestion Amazon Redshift.
Choisissez Créer un cluster. Attendez que votre cluster soit créé avec le Available statut sur la page Clusters.

Étape 2 : Configurer les règles entrantes pour les clients SQL

Note

Nous vous recommandons d'ignorer cette étape et d'accéder à votre cluster à l'aide de l'éditeur de requêtes Amazon Redshift v2.

Plus loin dans ce didacticiel, vous accéderez à votre cluster à partir d’un cloud privé virtuel (VPC) basé sur le service Amazon VPC. Toutefois, si vous utilisez un client SQL qui est situé en dehors de votre pare-feu pour accéder au cluster, assurez-vous d’accorder un accès entrant.

Pour vérifier votre pare-feu et octroyer un accès entrant à votre cluster

Vérifiez les règles de votre pare-feu si votre cluster doit faire l’objet d’un accès depuis l’extérieur du pare-feu. Par exemple, votre client peut être une instance Amazon Elastic Compute Cloud (Amazon EC2) ou un ordinateur externe.

Pour plus d'informations sur les règles de pare-feu, consultez la section Règles des groupes de sécurité dans le guide de EC2 l'utilisateur Amazon.
Pour y accéder depuis un client EC2 externe Amazon, ajoutez une règle d'entrée au groupe de sécurité attaché à votre cluster qui autorise le trafic entrant. Vous ajoutez les règles du groupe EC2 de sécurité Amazon dans la EC2 console Amazon. Par exemple, un CIDR/IP of 192.0.2.0/24 allows clients in that IP address range to connect to your cluster. Find out the correct CIDR/IP pour votre environnement.

Étape 3 : accorder l'accès à un client SQL et exécuter des requêtes

Pour interroger les bases de données hébergées par votre cluster Amazon Redshift, plusieurs options s'offrent aux clients SQL. Il s’agit des licences suivantes :

Connectez-vous à votre cluster et exécutez des requêtes à l'aide de l'éditeur de requêtes Amazon Redshift v2.

Si vous utilisez l'éditeur de requêtes v2, il n'est pas nécessaire de télécharger et de configurer une application cliente SQL. Vous lancez l'éditeur de requêtes Amazon Redshift v2 depuis la console Amazon Redshift.
Connectez-vous à votre cluster à l'aide de RSQL. Pour plus d'informations, consultez la section Connexion à Amazon Redshift RSQL dans le guide de gestion Amazon Redshift.
Connectez-vous à votre cluster via un outil client SQL, tel que SQL Workbench/J. Pour plus d'informations, consultez la section Se connecter à votre cluster à l'aide de SQL Workbench/J dans le guide de gestion Amazon Redshift.

Ce didacticiel utilise l'éditeur de requêtes Amazon Redshift v2 pour exécuter facilement des requêtes sur des bases de données hébergées par votre cluster Amazon Redshift. Après avoir créé votre cluster, vous pouvez immédiatement exécuter des requêtes. Pour en savoir plus sur les considérations relatives à l'utilisation de l'éditeur de requêtes Amazon Redshift v2, consultez la section Considérations relatives à l'utilisation de l'éditeur de requêtes v2 dans le guide de gestion Amazon Redshift.

Accorder des privilèges d'accès à l'éditeur de requête v2

La première fois qu'un administrateur configure l'éditeur de requêtes v2 pour vous Compte AWS, il choisit AWS KMS key celui qui est utilisé pour chiffrer les ressources de l'éditeur de requêtes v2. Les ressources de l'éditeur de requêtes Amazon Redshift v2 incluent les requêtes enregistrées, les carnets de notes et les graphiques. Par défaut, une clé appartenant à AWS est utilisée pour chiffrer les ressources. Un administrateur peut également utiliser une clé gérée par le client en choisissant le nom de ressource Amazon (ARN) pour la clé sur la page de configuration. Une fois que vous avez configuré un compte, les paramètres de AWS KMS chiffrement ne peuvent pas être modifiés. Pour plus d'informations, consultez la section Configuration de votre Compte AWS dans le guide de gestion Amazon Redshift.

Pour accéder à l’éditeur de requêtes v2, vous avez besoin d’une autorisation. Un administrateur peut associer l'une des politiques AWS gérées pour l'éditeur de requêtes Amazon Redshift v2 au rôle ou à l'utilisateur IAM pour accorder des autorisations. Ces politiques AWS gérées sont rédigées avec différentes options qui contrôlent la manière dont le balisage des ressources permet le partage des requêtes. Vous pouvez utiliser la console IAM (https://console.aws.amazon.com/iam/) pour associer des politiques IAM. Pour plus d'informations sur ces politiques, consultez la section Accès à l'éditeur de requêtes v2 dans le guide de gestion Amazon Redshift.

Vous pouvez également créer votre propre politique basée sur les autorisations autorisées et refusées dans les politiques gérées fournies. Si vous utilisez l’éditeur de politique de la console IAM pour créer votre propre politique, choisissez SQL Workbench en tant que service pour lequel vous créez la politique dans l’éditeur visuel. L'éditeur de requêtes v2 utilise le nom de service AWS SQL Workbench dans l'éditeur visuel et dans le simulateur de politique IAM.

Pour plus d'informations, veuillez consulter la rubrique Utilisation de l'éditeur de requête v2 dans le Guide de gestion Amazon Redshift.

Étape 4 : Charger les données d’Amazon S3 vers Amazon Redshift

Après avoir créé votre cluster, vous pouvez charger des données depuis Amazon S3 dans vos tables de base de données. Il existe plusieurs méthodes pour charger des données depuis Amazon S3.

Vous pouvez utiliser un client SQL pour exécuter la commande SQL CREATE TABLE afin de créer une table dans votre base de données, puis utiliser la commande SQL COPY pour charger des données depuis Amazon S3. L'éditeur de requêtes Amazon Redshift v2 est un client SQL.
Vous pouvez utiliser l'assistant de chargement de l'éditeur de requêtes Amazon Redshift v2.

Ce didacticiel explique comment utiliser l'éditeur de requêtes Amazon Redshift v2 pour exécuter des commandes SQL afin de CRÉER des tables et de COPIER des données. Lancez l'éditeur de requêtes v2 depuis le volet de navigation de la console Amazon Redshift. Dans l'éditeur de requêtes v2, créez une connexion au examplecluster cluster et à la base de données nommés dev avec votre utilisateur administrateurawsuser. Pour ce didacticiel, sélectionnez Informations d'identification temporaires à l'aide d'un nom d'utilisateur de base de données lorsque vous créez la connexion. Pour en savoir plus sur l'utilisation de l'éditeur de requêtes Amazon Redshift v2, consultez la section Connexion à une base de données Amazon Redshift dans le guide de gestion Amazon Redshift.

Chargement de données depuis Amazon S3 à l'aide de commandes SQL

Dans le volet éditeur de requêtes v2 de l'éditeur de requêtes, vérifiez que vous êtes connecté au examplecluster cluster et à la dev base de données. Créez ensuite des tables dans la base de données et chargez les données dans les tables. Dans le cadre de ce didacticiel, les données que vous chargez sont disponibles dans un compartiment Amazon S3 accessible par de nombreuses personnes Régions AWS.

La procédure suivante crée des tables et charge des données à partir d'un compartiment Amazon S3 public.

Utilisez l'éditeur de requêtes Amazon Redshift v2 pour copier et exécuter l'instruction create table suivante afin de créer une table dans le public schéma de la dev base de données. Pour plus d’informations sur la syntaxe, consultez CREATE TABLE dans le Guide du développeur de base de données Amazon Redshift.

Pour créer et charger des données à l'aide d'un client SQL tel que l'éditeur de requêtes v2

Exécutez la commande SQL suivante pour CRÉER la sales table.



   drop table if exists sales;
   create table sales(
	salesid integer not null,
	listid integer not null distkey,
	sellerid integer not null,
	buyerid integer not null,
	eventid integer not null,
	dateid smallint not null sortkey,
	qtysold smallint not null,
	pricepaid decimal(8,2),
	commission decimal(8,2),
	saletime timestamp);

Exécutez la commande SQL suivante pour CRÉER la date table.



drop table if exists date;              
create table date(
	dateid smallint not null distkey sortkey,
	caldate date not null,
	day character(3) not null,
	week smallint not null,
	month character(5) not null,
	qtr character(5) not null,
	year smallint not null,
	holiday boolean default('N'));

Chargez la sales table depuis Amazon S3 à l'aide de la commande COPY.

Note
Nous vous recommandons d'utiliser la commande COPY pour charger des ensembles de données volumineux dans Amazon Redshift depuis Amazon S3. Pour plus d’informations sur la syntaxe COPY, consultez COPY dans le Guide du développeur de la base de données Amazon Redshift.

Pour charger les exemples de données, vous devez fournir l’authentification de votre cluster afin qu’il accède à Amazon S3 en votre nom. Vous fournissez l'authentification en référençant le rôle IAM que vous avez créé et défini comme étant celui de default votre cluster lorsque vous avez choisi Créer un rôle IAM par défaut lors de la création du cluster.

Chargez la sales table à l'aide de la commande SQL suivante. Vous pouvez éventuellement télécharger et consulter depuis Amazon S3 les données source de la sales table. .
```
COPY sales
    FROM 's3://redshift-downloads/tickit/sales_tab.txt' 
    DELIMITER '\t' 
    TIMEFORMAT 'MM/DD/YYYY HH:MI:SS' 
    REGION 'us-east-1'
    IAM_ROLE default;
```
Chargez la date table à l'aide de la commande SQL suivante. Vous pouvez éventuellement télécharger et consulter depuis Amazon S3 les données source de la date table. .
```
COPY date
    FROM 's3://redshift-downloads/tickit/date2008_pipe.txt' 
    DELIMITER '|' 
    REGION 'us-east-1'
    IAM_ROLE default;
```

Chargement de données depuis Amazon S3 à l'aide de l'éditeur de requêtes v2

Cette section décrit le chargement de vos propres données dans un cluster Amazon Redshift. L'éditeur de requêtes v2 simplifie le chargement des données lors de l'utilisation de l'assistant de chargement de données. La commande COPY générée et utilisée dans l'assistant de chargement de données de l'éditeur de requêtes v2 prend en charge de nombreux paramètres disponibles dans la syntaxe de la commande COPY pour charger des données depuis Amazon S3. Pour plus d’informations sur la commande COPY et ses options utilisées pour copier une charge à partir d’Amazon S3, consultez Commande COPY depuis Amazon Simple Storage Service dans le Guide du développeur de base de données Amazon Redshift.

Pour charger vos propres données depuis Amazon S3 vers Amazon Redshift, Amazon Redshift nécessite un rôle IAM disposant des privilèges requis pour charger des données à partir du compartiment Amazon S3 spécifié.

Pour charger vos propres données depuis Amazon S3 vers Amazon Redshift, vous pouvez utiliser l'assistant de chargement de données de l'éditeur de requêtes v2. Pour plus d'informations sur l'utilisation de l'assistant de chargement de données, consultez la section Chargement de données depuis Amazon S3 dans le guide de gestion Amazon Redshift.

Créez des données TICKIT dans votre cluster

TICKIT est un exemple de base de données que vous pouvez éventuellement charger dans votre cluster Amazon Redshift afin d'apprendre à interroger des données dans Amazon Redshift. Vous pouvez créer l'ensemble complet des tables TICKIT et charger des données dans votre cluster de la manière suivante :

Lorsque vous créez un cluster dans la console Amazon Redshift, vous avez la possibilité de charger des échantillons de données TICKIT en même temps. Sur la console Amazon Redshift, choisissez Clusters, puis Create cluster. Dans la section Exemples de données, sélectionnez Charger des exemples de données. Amazon Redshift charge automatiquement son ensemble de données d'échantillons dans la base de données de votre cluster Amazon Redshift lors de la dev création du cluster.
Pour vous connecter à un cluster existant, procédez comme suit :
- Dans la console Amazon Redshift, choisissez Clusters dans la barre de navigation.
- Choisissez votre cluster dans le volet Clusters.
- Choisissez Query data, Query in query in query editor v2.
- Développez examplecluster dans la liste des ressources. Si c'est la première fois que vous vous connectez à votre cluster, l'exemple Connect to apparaît. Choisissez le nom d'utilisateur et le mot de passe de la base Laissez la base de données telle quelledev. Spécifiez awsuser le nom d'utilisateur et Changeit1 le mot de passe.
- Choisissez Créer une connexion.
Avec l'éditeur de requêtes Amazon Redshift v2, vous pouvez charger des données TICKIT dans un exemple de base de données nommé sample_data_dev. Choisissez la base de données sample_data_dev dans la liste des ressources. À côté du nœud tickit, cliquez sur l'icône Ouvrir des exemples de carnets de notes. Confirmez que vous souhaitez créer l'exemple de base de données.
L'éditeur de requêtes Amazon Redshift v2 crée l'exemple de base de données ainsi qu'un bloc-notes d'exemple nommé. tickit-sample-notebook Vous pouvez choisir Tout exécuter pour exécuter ce bloc-notes afin d'interroger les données de la base de données exemple.

Pour en savoir plus sur les données TICKIT, consultez la section Exemple de base de données dans le manuel Amazon Redshift Database Developer Guide.

Étape 5 : Essayer des exemples de requêtes à l’aide de l’éditeur de requêtes

Pour configurer et utiliser l'éditeur de requêtes Amazon Redshift v2 pour interroger une base de données, consultez la section Utilisation de l'éditeur de requêtes v2 dans le guide de gestion Amazon Redshift.

Maintenant, essayez quelques exemples de requêtes, comme indiqué ci-dessous. Pour créer de nouvelles requêtes dans l'éditeur de requêtes v2, cliquez sur l'icône + dans le coin supérieur droit du volet des requêtes, puis sélectionnez SQL. Une nouvelle page de requête apparaît dans laquelle vous pouvez copier et coller les requêtes SQL suivantes.

Note

Veillez à exécuter d'abord la première requête du bloc-notes, qui définit la valeur de configuration search_path du serveur sur le tickit schéma à l'aide de la commande SQL suivante :


set search_path to tickit;

Pour plus d'informations sur l'utilisation de la commande SELECT, consultez SELECT dans le manuel Amazon Redshift Database Developer Guide.


-- Get definition for the sales table.
SELECT *    
FROM pg_table_def    
WHERE tablename = 'sales';


-- Find total sales on a given calendar date.
SELECT sum(qtysold) 
FROM   sales, date 
WHERE  sales.dateid = date.dateid 
AND    caldate = '2008-01-05';


-- Find top 10 buyers by quantity.
SELECT firstname, lastname, total_quantity 
FROM   (SELECT buyerid, sum(qtysold) total_quantity
        FROM  sales
        GROUP BY buyerid
        ORDER BY total_quantity desc limit 10) Q, users
WHERE Q.buyerid = userid
ORDER BY Q.total_quantity desc;


-- Find events in the 99.9 percentile in terms of all time gross sales.
SELECT eventname, total_price 
FROM  (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile 
       FROM (SELECT eventid, sum(pricepaid) total_price
             FROM   sales
             GROUP BY eventid)) Q, event E
       WHERE Q.eventid = E.eventid
       AND percentile = 1
ORDER BY total_price desc;

Étape 6 : Réinitialiser votre environnement

Au cours des étapes précédentes, vous avez réussi à créer un cluster Amazon Redshift, à charger des données dans des tables et à interroger des données à l'aide d'un client SQL tel que l'éditeur de requêtes Amazon Redshift v2.

Lorsque vous avez terminé ce didacticiel, nous vous recommandons de réinitialiser votre environnement à l’état précédent en supprimant l’exemple de cluster. Vous continuez à payer des frais pour le service Amazon Redshift tant que vous n’avez pas supprimé le cluster.

Toutefois, vous souhaiterez peut-être continuer à exécuter le cluster d'échantillons si vous avez l'intention d'essayer des tâches figurant dans d'autres guides Amazon Redshift ou des tâches décrites dans. Exécutez des commandes pour définir et utiliser une base de données dans votre entrepôt de données

Pour supprimer un cluster

Connectez-vous à la console Amazon Redshift AWS Management Console et ouvrez-la à l'adresse. https://console.aws.amazon.com/redshiftv2/
Dans le menu de navigation, choisissez Clusters pour afficher la liste des clusters.
Choisissez le cluster examplecluster. Pour Actions, choisissez Supprimer. Le cluster d'exemples Delete ? la page apparaît.
Confirmez le cluster à supprimer, décochez le paramètre Créer un instantané final, puis entrez delete pour confirmer la suppression. Choisissez Supprimer le cluster.

Sur la page de la liste des clusters, l’état du cluster est mis à jour afin de refléter la suppression du cluster.

Après avoir terminé ce didacticiel, vous pourrez trouver des informations supplémentaires sur Amazon Redshift et les étapes suivantes dans Ressources supplémentaires pour en savoir plus sur Amazon Redshift.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Commencez avec les entrepôts de données sans serveur

Définissez et utilisez une base de données dans votre entrepôt de données

Rubrique suivante :

Définissez et utilisez une base de données dans votre entrepôt de données

Rubrique précédente :

Commencez avec les entrepôts de données sans serveur

Avez-vous besoin d’aide ?

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Commencez avec les entrepôts de données provisionnés Amazon Redshift

Important

Rubriques

Déterminer les règles de pare-feu

Note

Étape 1 : Créer un exemple de cluster Amazon Redshift

Pour créer un cluster Amazon Redshift

Important

Note

Étape 2 : Configurer les règles entrantes pour les clients SQL

Note

Pour vérifier votre pare-feu et octroyer un accès entrant à votre cluster

Étape 3 : accorder l'accès à un client SQL et exécuter des requêtes

Accorder des privilèges d'accès à l'éditeur de requête v2

Étape 4 : Charger les données d’Amazon S3 vers Amazon Redshift

Chargement de données depuis Amazon S3 à l'aide de commandes SQL

Pour créer et charger des données à l'aide d'un client SQL tel que l'éditeur de requêtes v2

Note

Chargement de données depuis Amazon S3 à l'aide de l'éditeur de requêtes v2

Créez des données TICKIT dans votre cluster

Étape 5 : Essayer des exemples de requêtes à l’aide de l’éditeur de requêtes

Note

Étape 6 : Réinitialiser votre environnement

Pour supprimer un cluster

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Les étapes de ce didacticiel, décrites ci-dessous