Mise à l’échelle de la simultanéité - Amazon Redshift

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mise à l’échelle de la simultanéité

Grâce à la fonction de mise à l’échelle de la simultanéité, vous pouvez prendre en charge des milliers d’utilisateurs et de requêtes simultanées, avec des performances de requêtes toujours rapides. Lorsque vous activez la mise à l’échelle de la simultanéité, Amazon Redshift ajoute automatiquement de la capacité supplémentaire au cluster pour traiter un plus grand nombre de requêtes de lecture et d’écriture. Les utilisateurs voient les données les plus récentes, que les requêtes s’exécutent sur le cluster principal ou sur un cluster de mise à l’échelle de la simultanéité.

Vous pouvez gérer les requêtes envoyées au cluster de dimensionnement simultané en configurant des files d'attente. WLM Lorsque vous activez la mise à l’échelle de la simultanéité, les requêtes éligibles sont envoyées au cluster de mise à l’échelle de la simultanéité au lieu d’attendre dans une file.

Vous êtes facturé pour les clusters de mise à l’échelle de la simultanéité uniquement pour la durée de leur utilisation. Pour plus d’informations sur les tarifs, y compris la façon dont les frais sont calculés et les frais minimaux, consultez Tarification de la mise à l’échelle de la simultanéité.

Capacités de mise à l’échelle de la simultanéité

Lorsque vous activez le dimensionnement de la simultanéité pour une WLM file d'attente, cela fonctionne pour les opérations de lecture, telles que les requêtes de tableau de bord. Cela fonctionne également pour les opérations d’écriture couramment utilisées, telles que les instructions pour l’ingestion et le traitement des données.

Capacités de mise à l’échelle de la simultanéité pour les opérations d’écriture

Le dimensionnement de la simultanéité prend en charge les opérations d'écriture fréquemment utilisées, telles que les instructions extract, transform et load (ETL). La mise à l’échelle de la simultanéité pour les opérations d’écriture est particulièrement utile lorsque vous souhaitez maintenir la cohérence des temps de réponse lorsque votre cluster reçoit un grand nombre de demandes. Cela améliore le débit pour les opérations d’écriture qui se disputent des ressources sur le cluster principal.

La mise à l'échelle de la COPY simultanéité prend en charge les instructions INSERT DELETEUPDATE,,, et CREATE TABLE AS (CTAS). En outre, la mise à l'échelle de la simultanéité prend en charge l'actualisation des vues matérialisées pour celles MVs qui n'utilisent pas d'agrégations. Les autres instructions du langage de manipulation de données (DML) et du langage de définition des données (DDL) ne sont pas prises en charge. Lorsque des instructions d'écriture non prises en charge, telles que CREATE without TABLE AS, sont incluses dans une transaction explicite avant les instructions d'écriture prises en charge, aucune des instructions d'écriture ne s'exécute sur des clusters à mise à l'échelle simultanée.

Lorsque vous accumulez des crédits pour la mise à l’échelle de la simultanéité, cette provision de crédits s’applique à la fois aux opérations de lecture et d’écriture.

Limitations de la mise à l’échelle de la simultanéité

Les restrictions suivantes s’appliquent à l’utilisation de l’adaptation de la simultanéité Amazon Redshift :

  • Elle ne prend pas en charge les requêtes sur les tables qui utilisent les clés de tri entrelacées.

  • Elle ne prend pas en charge les requêtes sur les tables temporaires.

  • Il ne prend pas en charge les requêtes qui accèdent à des ressources externes protégées par des configurations restrictives de réseau ou de cloud privé virtuel (VPC).

  • Il ne prend pas en charge les requêtes contenant des fonctions Python définies par l'utilisateur (UDFs) et LambdaUDFs.

  • Il ne prend pas en charge les requêtes qui accèdent aux tables système, aux tables du SQL catalogue Postgre ou aux tables sans sauvegarde.

  • Il ne prend pas en charge COPY ni UNLOAD ne demande d'accès à une ressource externe lorsque des autorisations IAM politiques restrictives sont en place. Cela inclut les autorisations appliquées soit à la ressource, comme un bucket Amazon S3 ou une table DynamoDB, soit à la source. IAMles sources peuvent inclure les suivantes :

    • aws:sourceVpc— Une sourceVPC.

    • aws:sourceVpce— Un point de VPC terminaison source.

    • aws:sourceIp— Une adresse IP source.

    Dans certains cas, vous devrez peut-être supprimer les autorisations qui restreignent la ressource ou la source, afin que COPY les UNLOAD requêtes accédant à la ressource soient envoyées au cluster de dimensionnement simultané.

    Pour plus d'informations sur les politiques relatives aux ressources, consultez les sections Types de politiques dans le guide de l' AWS Identity and Access Management utilisateur et Contrôle de l'accès depuis les VPC points de terminaison à l'aide de politiques de compartiment.

  • Le dimensionnement simultané d'Amazon Redshift pour les opérations d'écriture n'est pas pris en charge pour les DDL opérations telles que ou. CREATE TABLE ALTER TABLE

  • Il ne prend pas en ANALYZE charge la COPY commande.

  • Il ne prend pas en charge les opérations d'écriture sur une table cible où DISTSTYLE est défini surALL.

  • Il ne prend pas en charge les formats COPY de fichiers suivants :

    • Parquet

    • ORC

  • Elle ne prend pas en charge les opérations d’écriture sur les tables avec des colonnes d’identité.

  • Amazon Redshift prend en charge le dimensionnement simultané pour les opérations d'écriture uniquement sur les nœuds Amazon Redshift. RA3 La mise à l’échelle de la simultanéité pour les opérations d’écriture n’est pas prise en charge sur les autres types de nœuds.

Régions AWS pour la mise à l'échelle simultanée

Avec Amazon Redshift, vous pouvez utiliser le dimensionnement simultané pour gérer les demandes de charge de travail simultanées sur les clusters Redshift. Cette rubrique détaille les régions dans lesquelles vous pouvez utiliser le dimensionnement simultané avec Amazon Redshift.

La mise à l'échelle de la simultanéité est disponible dans les AWS régions suivantes :

  • Région USA Est (Virginie du Nord) (us-east-1)

  • Région USA Est (Ohio) (us-east-2)

  • Région US Ouest (Californie du Nord) (us-west-1)

  • Région USA Ouest (Oregon) (us-west-2)

  • Région Asie-Pacifique (Mumbai) (ap-south-1)

  • Région Asie-Pacifique (Séoul) (ap-northeast-2)

  • Région Asie-Pacifique (Singapour) (ap-southeast-1)

  • Région Asie-Pacifique (Sydney) (ap-southeast-2)

  • Région Asie-Pacifique (Tokyo) (ap-northeast-1)

  • Région Canada (Centre) (ca-central-1)

  • Région Chine (Beijing) (cn-north-1)

  • Région Chine (Ningxia) (cn-northwest-1)

  • Région Europe (Francfort) (eu-central-1)

  • Région Europe (Irlande) (eu-west-1)

  • Région Europe (Londres) (eu-west-2)

  • Région Europe (Paris) (eu-west-3)

  • Région Europe (Stockholm) (eu-north-1)

  • Région Europe (Zurich) (eu-central-2)

  • Région Europe (Espagne) (eu-south-2)

  • Région Amérique du Sud (Sao Paulo) (sa-east-1)

  • AWS GovCloud (USA Est)

Candidats à la mise à l’échelle de la simultanéité

Avec Amazon Redshift, vous pouvez étendre le traitement des requêtes afin d'accélérer l'exécution de requêtes simultanées. La rubrique suivante décrit les critères utilisés par Amazon Redshift pour déterminer les requêtes à acheminer vers le dimensionnement de la simultanéité.

Les requêtes sont acheminées vers le cluster de mise à l’échelle de la simultanéité uniquement lorsque le cluster principal répond aux exigences suivantes :

  • EC2- VPC plate-forme.

  • Le type de nœud doit être dc2.8xlarge, dc2.large, ra3.large, ra3.xlplus, ra3.4xlarge ou ra3.16xlarge. Le dimensionnement simultané pour les opérations d'écriture est pris en charge uniquement sur les nœuds Amazon RA3 Redshift.

  • 32 nœuds de calcul au maximum pour les clusters dotés de types de nœuds ra3.xlplus, ra3.4xlarge ou ra3.16xlarge. En outre, le nombre de nœuds du cluster principal ne peut pas dépasser 32 nœuds lorsque le cluster a été créé à l’origine. Par exemple, même si un cluster a actuellement 20 nœuds, mais qu’il a été créé à l’origine avec 40, il ne répond pas aux conditions requises pour la mise à l’échelle de la simultanéité. À l'inverse, si un DC2 cluster compte actuellement 40 nœuds, mais qu'il a été créé à l'origine avec 20 nœuds, il répond aux exigences relatives à la mise à l'échelle de la simultanéité.

  • Ce n’est pas un cluster à nœud unique.

Configuration de files d’attente de mise à l’échelle de la simultanéité

Avec Amazon Redshift, vous pouvez gérer la simultanéité et les ressources système en configurant le dimensionnement de la simultanéité. Les files d'attente de dimensionnement simultané vous permettent de définir des limites quant au nombre de requêtes ou de sessions utilisateur pouvant être exécutées simultanément. La section suivante fournit des instructions sur la façon d'activer les files d'attente de dimensionnement simultané dans Amazon Redshift, ce qui vous permet de gérer efficacement les requêtes simultanées et les sessions utilisateur.

Vous acheminez les requêtes vers des clusters de dimensionnement simultané en activant le dimensionnement simultané dans une file d'attente du gestionnaire de charge de travail (WLM). Pour activer la mise à l’échelle de la simultanéité sur une file d’attente, définissez la valeur de Concurrency Scaling mode sur auto.

Lorsque le nombre de requêtes acheminées vers une file d'attente pour laquelle le dimensionnement de la simultanéité est activé dépasse la capacité de simultanéité de la file d'attente, que la capacité soit configurée manuellement ou déterminée automatiquement, les requêtes éligibles sont envoyées au cluster de dimensionnement de la simultanéité. Lorsque des emplacements de file d'attente sont disponibles sur le cluster principal, les requêtes sont acheminées vers le cluster principal et exécutées sur celui-ci. Comme pour toute WLM file d'attente, vous acheminez les requêtes vers une file d'attente dimensionnée en fonction des groupes d'utilisateurs, en étiquetant les requêtes avec des étiquettes de groupes de requêtes ou en fonction des conditions de correspondance définies dans Affectation de requêtes aux files d'attente. Vous pouvez également acheminer les requêtes en définissant des WLMrègles de surveillance des requêtes. Par exemple, vous pouvez acheminer toutes les requêtes qui nécessitent plus de 5 secondes vers une file d’attente de mise à l’échelle de la simultanéité. N'oubliez pas que le comportement des files d'attente peut varier selon que vous utilisez le mode automatique WLM ou manuel. WLM Pour plus d'informations, voir Implémentation automatique WLM ou Manuel de mise en œuvre WLM.

Par défaut, il y a un cluster pour la mise à l’échelle de la simultanéité. Le nombre de clusters de mise à l’échelle de la simultanéité qui peuvent être utilisés est contrôlé par max_concurrency_scaling_clusters.

Surveillance de la mise à l’échelle de la simultanéité

Avec Amazon Redshift, vous pouvez surveiller et gérer le dimensionnement simultané afin d'optimiser les performances et la rentabilité de vos charges de travail d'entreposage de données. Le dimensionnement simultané permet à Amazon Redshift d'ajouter automatiquement de la capacité de cluster supplémentaire lorsque la charge de travail augmente, et de supprimer cette capacité lorsque les demandes diminuent. La section suivante fournit des conseils sur la surveillance du dimensionnement de la simultanéité pour vos clusters Amazon Redshift.

Pour voir si une requête s’exécute sur le cluster principal ou sur un cluster de mise à l’échelle de la simultanéité, accédez à Cluster dans la console Amazon Redshift, puis choisissez un cluster. Choisissez ensuite l’onglet Surveillance des requêtes et Simultanéité de charge de travail pour afficher des informations sur les requêtes en cours d’exécution et les requêtes en file d’attente.

Pour connaître les temps d'exécution, interrogez la QUERY table STL _ et filtrez sur la concurrency_scaling_status colonne. La requête suivante compare le temps d’attente et le temps d’exécution pour les requêtes exécutées sur le cluster de mise à l’échelle de la simultanéité et les requêtes exécutées sur le cluster principal.

SELECT w.service_class AS queue , CASE WHEN q.concurrency_scaling_status = 1 THEN 'concurrency scaling cluster' ELSE 'main cluster' END as concurrency_scaling_status , COUNT( * ) AS queries , SUM( q.aborted ) AS aborted , SUM( ROUND( total_queue_time::NUMERIC / 1000000,2) ) AS queue_secs , SUM( ROUND( total_exec_time::NUMERIC / 1000000,2) ) AS exec_secs FROM stl_query q JOIN stl_wlm_query w USING (userid,query) WHERE q.userid > 1 AND q.starttime > '2019-01-04 16:38:00' AND q.endtime < '2019-01-04 17:40:00' GROUP BY 1,2 ORDER BY 1,2;

Ajustez les valeurs starttime et endtime en fonction de vos besoins.

Vues système de la mise à l’échelle de la simultanéité

Avec Amazon Redshift, vous pouvez utiliser les vues du système de dimensionnement de la simultanéité pour surveiller et gérer les activités de dimensionnement de la simultanéité dans votre cluster. La section suivante décrit l'interrogation de ces vues système et l'interprétation des résultats afin de tirer efficacement parti du dimensionnement simultané dans votre environnement Amazon Redshift.

Un ensemble de vues du système avec le préfixe SVCS fournit des informations provenant des tables des journaux du système concernant les requêtes sur les clusters de dimensionnement principaux et simultanés.

Les vues suivantes contiennent des informations similaires à celles des STL vues ou SVL vues correspondantes :

Les vues suivantes sont spécifiques à la mise à l’échelle de la simultanéité :

Pour plus d’informations sur la mise à l’échelle de la simultanéité, consultez les rubriques suivantes dans le Guide de la gestion du cluster Amazon Redshift.