Clusters provisionados do Amazon Redshift - Amazon Redshift

Clusters provisionados do Amazon Redshift

Um data warehouse do Amazon Redshift é um conjunto de recursos de computação chamados nós, que são organizados em um grupo chamado cluster. Cada cluster executa um mecanismo do Amazon Redshift e contém um ou mais bancos de dados.

nota

No momento, o mecanismo Amazon Redshift versão 1.0 está disponível. No entanto, conforme o mecanismo é atualizado, várias versões do mecanismo Amazon Redshift podem estar disponíveis para seleção.

Clusters e nós no Amazon Redshift

Um cluster do Amazon Redshift consiste em nós. Cada cluster tem um nó de liderança e um ou mais nós de computação. O nó líder recebe consultas de aplicativos cliente, analisa as consultas e desenvolve planos de execução de consulta. Em seguida, o nó principal coordena a execução paralela desses planos com os nós de computação e agrega os resultados intermediários desses nós. Então, ele retorna os resultados de volta para os aplicativos cliente.

Os nós de computação executam planos de execução de consultas e transmitem dados entre si para atender a essas consultas. Os resultados intermediários são enviados ao nó de liderança para agregação antes de serem enviados novamente para os aplicativos clientes. Para obter mais informações sobre nós líderes e nós de computação, consulte Arquitetura do sistema de data warehouse no Guia do desenvolvedor de banco de dados do Amazon Redshift.

nota

Quando você cria um cluster no console do Amazon Redshift (https://console.aws.amazon.com/redshiftv2/), você pode obter uma recomendação de configuração de cluster com base no tamanho dos dados e das características de consulta. Para usar esta calculadora de dimensionamento, procure Ajude-me a escolher no console nas regiões da AWS que oferecem suporte a tipos de nó RA3. Para obter mais informações, consulte Criar um cluster.

Quando você inicia um cluster, uma opção que você especifica é o tipo de nó. O tipo de nó determina a CPU, RAM, capacidade de armazenamento e o tipo de unidade de armazenamento de cada nó.

O Amazon Redshift oferece diferentes tipos de nós para acomodar seus workloads e recomendamos a escolha de RA3 ou DC2 dependendo da performance necessária, tamanho dos dados e crescimento de dados esperado.

Os nós RA3 com armazenamento gerenciado permitem que otimizar o data warehouse com escalabilidade e pagando separadamente por computação e armazenamento gerenciado. Com o RA3, você escolhe o número de nós com base nos requisitos de performance e paga apenas pelo armazenamento gerenciado utilizado. Dimensione o cluster RA3 com base na quantidade de dados processada diariamente. Você pode executar clusters que usam os tipos de nó RA3 em uma virtual private cloud (VPC). Não é possível iniciar clusters RA3 no EC2-Classic. Para obter mais informações, consulte Criar um cluster provisionado do Redshift ou um grupo de trabalho do Amazon Redshift sem servidor em uma VPC.

O armazenamento gerenciado do Amazon Redshift usa SSDs grandes de alta performance em cada nó RA3 para armazenamento local rápido e Amazon S3 para armazenamento durável de longo prazo. Se os dados em um nó crescerem além do tamanho dos grandes SSDs locais, o armazenamento gerenciado do Amazon Redshift descarrega automaticamente esses dados para o Amazon S3. Você paga a mesma taxa baixa pelo armazenamento gerenciado do Amazon Redshift, independentemente de os dados estarem em SSDs de alta performance ou no Amazon S3. Para workloads que exigem armazenamento crescente, o armazenamento gerenciado permite escalar automaticamente a capacidade de armazenamento do data warehouse separada dos nós de computação.

Os nós DC2 permitem criar data warehouses com uso intensivo de computação e armazenamento SSD local. Você escolhe o número de nós necessários com base no tamanho dos dados e nos requisitos de performance. Os nós DC2 armazenam os dados localmente para alta performance e, conforme o tamanho dos dados cresce, é possível adicionar mais nós de computação para aumentar a capacidade de armazenamento do cluster. Para conjuntos de dados abaixo de 1 TB (compactados), recomendamos os tipos de nós DC2 para obter a melhor performance com o menor preço. Se você espera que os dados cresçam, recomendados o uso dos nós RA3, para que você possa dimensionar computação e armazenamento de forma independente para atingir preço e performance melhores. Você executa clusters que usam os tipos de nó DC2 em uma nuvem privada virtual (VPC). Não é possível iniciar clusters DC2 no EC2-Classic. Para ter mais informações, consulte Criar um cluster provisionado do Redshift ou um grupo de trabalho do Amazon Redshift sem servidor em uma VPC.

Os tipos de nó estão disponíveis em diferentes tamanhos. O tamanho do nó e o número de nós determinam o armazenamento total de um cluster. Para obter mais informações, consulte Detalhes do tipo de nó.

Alguns tipos de nó permitem um nó (single-node) ou dois ou mais nós (multi-node). O número mínimo de nós para clusters de alguns tipos de nó é de dois nós. Em um cluster de single-node, o nó é compartilhado para a funcionalidade principal e de computação. Os clusters de nó único não são recomendados para executar workloads de produção. Em um cluster de multi-node, o nó de liderança é separado dos nós de computação. O nó de liderança é o mesmo tipo de nó que os nós de computação. Você só paga pelos nós de computação.

O Amazon Redshift aplica cotas a recursos para cada conta da AWS em cada região da AWS. Uma cota restringe o número de recursos que sua conta pode criar para um determinado tipo de recurso, como nós ou snapshots, dentro de uma região da AWS. Para obter mais informações sobre as cotas padrão que se aplicam aos recursos do Amazon Redshift, consulte Cotas e limites no Amazon Redshift.

O custo do cluster depende da região da AWS, do tipo de nó, do número de nós e se os nós são reservados com antecedência. Para obter mais informações sobre o custo de nós, consulte a página de Preços do Amazon Redshift.

Detalhes do tipo de nó

As tabelas a seguir resumem as especificações de nó para cada tipo e tamanho de nó. Os títulos nas tabelas têm estes significados:

  • vCPU é o número de CPUs virtuais para cada nó.

  • RAM é a quantidade de memória em gibibytes (GiB) para cada nó.

  • Fatias por nó padrão é o número de fatias nas quais um nó de computação é particionado quando um cluster é criado ou redimensionado por meio do redimensionamento clássico.

    O número de fatias por nó poderá ser alterado se o cluster for redimensionado usando o redimensionamento elástico. No entanto, o número total de fatias em todos os nós de computação no cluster permanece o mesmo após o redimensionamento elástico.

    Ao criar um cluster com a operação de restauração do snapshot, o número de fatias do cluster resultante pode ser alterado do cluster original se você alterar o tipo de nó.

  • Storage é capacidade e o tipo de armazenamento de cada nó.

  • O Intervalo de nós é o número mínimo e máximo de nós que o Amazon Redshift suporta para o tipo e tamanho de nó.

    nota

    Você pode ficar restrito a menos nós, dependendo da cota aplicada à sua conta da AWS na região da AWS selecionada. Para obter mais informações sobre as cotas padrão que se aplicam aos recursos do Amazon Redshift, consulte Cotas e limites no Amazon Redshift.

  • Capacidade total é a capacidade de armazenamento total para o cluster se você implantar o número máximo de nós especificado no intervalo de nó.

A tabela a seguir descreve as especificações para os nós RA3.

Tipo de nó vCPU RAM (GiB) Fatias padrão por nó Limite do armazenamento gerenciado por nó 1 Intervalo de nós com a criação de cluster Capacidade total de armazenamento gerenciado 2
ra3.large (nó único) 2 16 2 1 TB 1 1 TB3
ra3.large (vários nós) 2 16 2 8 TB 2-16 128 TB
ra3.xlplus (nó único) 4 32 2 4 TB 1 4 TB3
ra3.xlplus (vários nós) 4 32 2 32 TB 2–164 1.024 TB4
ra3.4xlarge 12 96 4 128 TB 2–325 8.192 TB5
ra3.16xlarge 48 384 16 128 TB 2–128 16.384 TB

1 O limite do armazenamento gerenciado do Amazon Redshift. Esse é um limite fixo.

2 O limite total de armazenamento gerenciado é o número máximo de nós vezes o limite de armazenamento gerenciado por nó.

3Para redimensionar um cluster de nó único para vários nós, somente o redimensionamento clássico é aceito.

4 Você pode criar um cluster com o tipo de nó ra3.xlplus (vários nós) que tenha até 16 nós. Para clusters de vários nós, é possível redimensionar com redimensionamento elástico até o máximo de 32 nós.

5 Você pode criar um cluster com o tipo de nó ra3.4xlarge com até 32 nós. Você pode redimensioná-lo com o redimensionamento elástico para um máximo de 64 nós.

A tabela a seguir descreve as especificações para os nós de computação densa.

Tipo de nó vCPU RAM (GiB) Fatias padrão por nó Armazenamento por nó Intervalo de nó Capacidade total
dc2.large 2 15 2 NVMe-SSD de 160 GB 1–32 5.12 TB
dc2.8xlarge 32 244 16 NVMe-SSD de 2.56 TB 2–128 326 TB
nota

Os tipos de nó de armazenamento denso (DS2) não estão mais disponíveis.

Nomes dos tipos anteriores de nó

Em versões anteriores do Amazon Redshift, certos tipos de nós tinham nomes diferentes. Você pode usar os nomes anteriores na API do Amazon Redshift e na AWS CLI. Contudo, recomendamos que você atualize todos os scripts que façam referência a esses nomes para usarem os nomes atuais. Os nomes atuais e anteriores são conforme se segue.

Nome atual Nomes anteriores
ds2.xlarge ds1.xlarge, dw.hs1.xlarge, dw1.xlarge
ds2.8xlarge ds1.8xlarge, dw.hs1.8xlarge, dw1.8xlarge
dc1.large dw2.large
dc1.8xlarge dw2.8xlarge

Determinação do número de nós

Como o Amazon Redshift distribui e executa consultas em paralelo em todos os nós de computação de um cluster, você pode aumentar a performance das consultas adicionando nós ao cluster. Quando você executa um cluster de, pelo menos, dois nós de computação, os dados em cada nó são espelhados em discos de outro nó para reduzir o risco de perda de dados.

É possível monitorar a performance da consulta no console do Amazon Redshift e com métricas do Amazon CloudWatch. Também é possível adicionar ou remover nós conforme necessário para alcançar o equilíbrio entre preço e performance para o cluster. Quando você solicita um nó adicional, o Amazon Redshift cuida de todos os detalhes de implantação, balanceamento de carga e manutenção de dados. Para obter mais informações sobre performance do cluster, consulte Monitorar a performance do cluster do Amazon Redshift.

Os nós reservados são adequados para workloads de produção estáveis e oferecem grandes descontos em relação aos nós sob demanda. É possível comprar nós reservados depois de executar experimentos e prova de conceitos para validar a configuração de produção. Para obter mais informações, consulte Nós reservados.

Ao pausar um cluster, você suspende o faturamento sob demanda durante o tempo em que o cluster fica pausado. Durante esse tempo pausado, você só paga pelo armazenamento de backup. Desse modo, você fica livre de planejar e comprar antecipadamente capacidade de data warehouse para atender às suas necessidades e pode gerenciar com economia ambientes para desenvolvimento ou testes.

Para obter informações sobre preço de nós sob demanda e reservados, consulte Preços do Amazon Redshift.

Uso do EC2-VPC ao criar o cluster

Clusters do Amazon Redshift são executados em instâncias do Amazon EC2 configuradas para o tipo de nó do Amazon Redshift e o tamanho de nó que você seleciona. Crie o cluster usando o EC2-VPC. Se você ainda estiver usando o EC2-Classic, recomendamos usar o EC2-VPC para obter melhor performance e segurança. Consulte mais informações sobre essas plataformas de rede em Supported Platforms no Guia do usuário do Amazon EC2. As configurações de sua conta da AWS determinam se EC2-VPC ou EC2-Classic estão disponíveis para você.

nota

Para evitar problemas de conexão entre as ferramentas do cliente SQL e o banco de dados do Amazon Redshift, recomendamos fazer uma das duas coisas. Você pode configurar uma regra de entrada que permita aos hosts negociar o tamanho do pacote. Como alternativa, você pode desabilitar os jumbo frames TCP/IP definindo a unidade máxima de transmissão (MTU) para 1500 na interface de rede (NIC) de suas instâncias do Amazon EC2. Para obter mais informações sobre essas abordagens, consulte As consultas parecem travar e, às vezes, não se comunicam com o cluster.

EC2-VPC

Ao usar EC2-VPC, seu cluster é executado em uma Virtual Private Cloud (VPC) que é logicamente isolada em sua conta da AWS. Se provisionar o cluster no EC2-VPC, você controlará seu acesso associando um ou mais grupos de segurança de VPC ao cluster. Para obter mais informações, consulte Grupos de segurança para sua VPC no Guia do usuário da Amazon VPC.

Para criar um cluster em um VPC, você deve primeiro criar um grupo de sub-rede de cluster do Amazon Redshift, fornecendo informações de sub-rede de seu VPC e, em seguida, fornecer o grupo de sub-rede ao iniciar o cluster. Para obter mais informações, consulte Sub-redes para recursos do Redshift.

Para obter mais informações sobre a Amazon Virtual Private Cloud (Amazon VPC), consulte o Página de detalhes do produto Amazon VPC.

Alarme padrão de espaço em disco

Ao criar um cluster do Amazon Redshift, você pode configurar opcionalmente um alarme do Amazon CloudWatch para monitorar a porcentagem média de espaço em disco que é usado em todos os nós em seu cluster. Nos referiremos a este alarme como o alarme padrão de espaço em disco.

A finalidade do alarme padrão de espaço em disco é ajudá-lo a monitorar a capacidade de armazenamento de seu cluster. Você pode configurar este alarme com base nas necessidades de seu data warehouse. Por exemplo, você pode usar o aviso como um indicador de que talvez seja necessário redimensionar seu cluster. É possível redimensionar selecionando um tipo de nó diferente ou adicionando nós, ou talvez comprando nós reservados para uma expansão futura.

O alarme padrão de espaço em disco é acionado quando o uso de disco atinge ou excede uma porcentagem especificada por determinado número de vezes e por uma duração específica. Por padrão, este alarme é acionado quando a porcentagem que você especifica é alcançada e permanece acima ou naquela porcentagem por cinco minutos ou mais. Você pode editar os valores padrão depois que executar o cluster.

Quando o alarme do CloudWatch é acionado, o Amazon Simple Notification Service (Amazon SNS) envia uma notificação para os destinatários especificados para alertá-los de que o limite de porcentagem foi alcançado. O Amazon SNS usa um tópico para especificar os destinatários e a mensagem que são enviados em uma notificação. Você pode usar um tópico existente do Amazon SNS; caso contrário, um tópico é criado com base nas configurações que você especifica ao iniciar o cluster. Você pode editar o tópico para este alarme depois que executar o cluster. Para obter mais informações sobre a criação de tópicos do Amazon SNS, consulte Conceitos básicos do Amazon Simple Notification Service.

Depois que você executar o cluster, é possível visualizar e editar o alarme a partir da janela Status em Alarmes do CloudWatch. O nome é percentage-disk-space-used-default-<string>. Você pode abrir o alarme para visualizar o tópico do Amazon SNS ao qual ele está associado e editar as configurações de alarme. Se você não selecionou um tópico existente do Amazon SNS para usar, o que foi criado para você é denominado <clustername>-default-alarms (<recipient>); por exemplo, examplecluster-default-alarms (notify@example.com).

Para obter mais informações sobre como configurar e editar o alarme padrão de espaço em disco, consulte Criar um cluster e Criar um alarme de espaço em disco.

nota

Se você excluir seu cluster, o alarme associado a ele não será excluído, mas não será acionado. Você pode excluir o alarme do console do CloudWatch se não precisar mais dele.

Status do cluster

O status de cluster exibe o estado atual do cluster. A tabela a seguir fornece uma descrição para cada status de cluster.

Status Descrição
available O cluster está em execução e disponível.
available, prep-for-resize O cluster está sendo preparado para redimensionamento elástico. O cluster está em execução e disponível para consultas de leitura e gravação, mas as operações de cluster, como a criação de um snapshot, não estão disponíveis.
available, resize-cleanup Uma operação de redimensionamento elástico está concluindo a transferência de dados para os novos nós do cluster. O cluster está em execução e disponível para consultas de leitura e gravação, mas as operações de cluster, como a criação de um snapshot, não estão disponíveis.
cancelling-resize A operação de redimensionamento está sendo cancelada.
creating O Amazon Redshift está criando o cluster. Para obter mais informações, consulte Criar um cluster.
deleting O Amazon Redshift está excluindo o cluster. Para ter mais informações, consulte Encerrar e excluir um cluster.
final-snapshot O Amazon Redshift está tirando um snapshot final do cluster antes de excluí-lo. Para ter mais informações, consulte Encerrar e excluir um cluster.
hardware-failure

O cluster sofreu uma falha de hardware.

Se você tem um cluster de único nó, o nó não pode ser substituído. Para recuperar seu cluster, restaure um snapshot. Para obter mais informações, consulte Snapshots e backups do Amazon Redshift.

incompatible-hsm O Amazon Redshift não pode se conectar ao módulo de segurança de hardware (HSM). Verifique a configuração de HSM entre o cluster e o HSM. Para obter mais informações, consulte Criptografia por meio de módulos de segurança de hardware.
incompatible-network Há um problema com a configuração de rede subjacente. Certifique-se de que a VPC em que você implementou o cluster existe e que suas configurações estão corretas. Para obter mais informações, consulte Recursos do Redshift em uma VPC.
incompatible-parameters Há um problema com um ou mais valores de parâmetros no parameter group associado e o valor ou valores de parâmetro não podem ser aplicados. Modifique o parameter group e atualize todos os valores inválidos. Para obter mais informações, consulte Grupos de parâmetros do Amazon Redshift.
incompatible-restore Houve um problema ao restaurar o cluster a partir do snapshot. Tente restaurar o cluster novamente com um snapshot diferente. Para obter mais informações, consulte Snapshots e backups do Amazon Redshift.
modifying O Amazon Redshift está aplicando mudanças ao cluster. Para obter mais informações, consulte Modificar um cluster.
paused O cluster está pausado. Para obter mais informações, consulte Pausar e retomar um cluster.
rebooting O Amazon Redshift está reinicializando o cluster. Para obter mais informações, consulte Reinicialização de um cluster.
renaming O Amazon Redshift está aplicando um novo nome ao cluster. Para obter mais informações, consulte Renomear um cluster.
resizing O Amazon Redshift está redimensionando o cluster. Para obter mais informações, consulte Redimensionamento de um cluster.
rotating-keys O Amazon Redshift está alternando as chaves de criptografia para o cluster. Para obter mais informações, consulte Alternância de chaves de criptografia.
storage-full O cluster alcançou sua capacidade de armazenamento. Redimensione o cluster para adicionar nós ou escolha um tamanho diferente de nó. Para ter mais informações, consulte Redimensionamento de um cluster.
updating-hsm O Amazon Redshift está atualizando a configuração do HSM.