Visão geral conceitual do Amazon Redshift - Amazon Redshift

Visão geral conceitual do Amazon Redshift

O Amazon Redshift sem servidor permite acessar e analisar dados sem todas as configurações de um data warehouse provisionado. Os recursos são provisionados automaticamente e a capacidade do data warehouse escala de maneira inteligente para oferecer performance rápida até mesmo às workloads mais exigentes e imprevisíveis. O tempo em que o data warehouse fica ocioso não é cobrado, portanto você paga apenas pelo que usa. Você pode carregar dados e começar a consultar imediatamente no editor de consultas v2 do Amazon Redshift ou na sua ferramenta de business intelligence (BI) favorita. Aproveite a melhor relação preço/performance e recursos de SQL familiares em um ambiente fácil de usar e que não exige administração.

Se você for um usuário iniciante do Amazon Redshift, recomendamos que comece lendo as seguintes seções:

Se você preferir gerenciar seus recursos do Amazon Redshift manualmente, poderá criar clusters provisionados para suas necessidades de consulta de dados. Para obter mais informações, consulte Clusters do Amazon Redshift.

Se sua organização for elegível e seu cluster estiver sendo criado em uma Região da AWS em que o Amazon Redshift sem servidor não está indisponível, você poderá criar um cluster no programa de teste gratuito do Amazon Redshift. Escolha Produção ou Teste gratuito para responder à pergunta Para que você está planejando usar esse cluster? Ao escolher Teste gratuito, você crie uma configuração com o tipo de nó dc2.large. Para obter mais informações sobre a escolha de um teste gratuito, consulte Teste gratuito do Amazon Redshift. Para obter uma lista de Regiões da AWS nas quais o Amazon Redshift sem servidor está disponível, consulte os endpoints listados para a API do Redshift sem servidor na Referência geral da Amazon Web Services.

A seguir estão alguns dos principais conceitos do Amazon Redshift sem servidor.

  • Namespace: um conjunto de objetos e usuários do banco de dados. Os namespaces agrupam todos os recursos que você usa no Amazon Redshift sem servidor, como esquemas, tabelas, usuários, unidades de compartilhamento de dados e snapshots.

  • Grupo de trabalho: um conjunto de recursos de computação. Os grupos de trabalho abrigam os recursos computacionais que o Amazon Redshift sem servidor usa para executar tarefas computacionais. Alguns exemplos desses recursos incluem unidades de processamento do Redshift (RPUs), grupos de segurança e limites de uso. Os grupos de trabalho têm configurações de rede e segurança que você pode definir usando o console do Amazon Redshift sem servidor, a AWS Command Line Interface ou as APIs do Amazon Redshift sem servidor.

Para obter mais informações sobre como configurar recursos de namespaces e grupos de trabalho, consulte Trabalhar com namespaces e Trabalhar com grupos de trabalho.

Veja a seguir alguns dos principais conceitos de clusters provisionados do Amazon Redshift:

  • Cluster: em cluster é o principal componente da infraestrutura de um data warehouse do Amazon Redshift.

    Um cluster é composto de um ou mais nós de computação. Os nós de computação executam o código compilado.

    Se um cluster for provisionado com dois ou mais nós de computação, um nó líder adicional coordenará os nós de computação. O nó líder aborda a comunicação externa com aplicações, como ferramentas de business intelligence e editores de consulta. O aplicativo cliente interage diretamente somente com o nó líder. Os nós de computação são transparentes a aplicativos externos.

  • Banco de dados: um cluster contém um ou mais bancos de dados.

    Os dados do usuário são armazenados em um ou mais bancos de dados nos nós de computação. O cliente SQL se comunica com o nó líder, que, por sua vez, coordena as consultas em execução com os nós de computação. Para obter mais informações sobre nós de computação e nós líderes, consulte Arquitetura do sistema de data warehouse. Em um banco de dados, os dados do usuário são organizados em um ou mais esquemas.

    O Amazon Redshift é um sistema de gerenciamento de banco de dados relacional (RDBMS) e é compatível com outras aplicações RDBMS. Oferece a mesma funcionalidade de um RDBMS típico, inclusive funções de processamento de transações online (OLTP), como inserir e excluir dados. O Amazon Redshift também é otimizado para análise em lote de alta performance e emissão de relatórios de conjuntos de dados.

A seguir, você encontra uma descrição do fluxo típico de processamento de dados no Amazon Redshift, juntamente com descrições de diferentes partes do fluxo. Para obter mais informações sobre a arquitetura do sistema do Amazon Redshift, consulte Arquitetura do sistema de data warehouse.

O diagrama a seguir ilustra um fluxo de processamento de dados típico no Amazon Redshift.

Um data warehouse do Amazon Redshift é um sistema de gerenciamento e consulta de banco de dados relacional de classe empresarial. O Amazon Redshift oferece suporte a conexões de clientes com muitos tipos de aplicações, incluindo business intelligence (BI), relatórios, dados e ferramentas analíticas. Ao executar consultas analíticas, você recupera, compara e avalia grandes volumes de dados em operações de várias etapas para produzir um resultado final.

Na camada de ingestão de dados, diferentes tipos de origem dos dados carregam continuamente dados estruturados, semiestruturados ou não estruturados para a camada de armazenamento de dados. Essa área de armazenamento de dados serve como uma área de preparação que armazena dados em diferentes estados de disponibilidade para consumo. Um bucket do Amazon Simple Storage Service (Amazon S3) é um exemplo de armazenamento.

Na camada opcional processamento de dados, os dados de origem passam por pré-processamento, validação e transformação usando pipelines extrair, transformar e carregar (ETL) ou extrair, carregar e transformar (ELT). Esses conjuntos de dados brutos são refinados por meio de operações ETL. Um exemplo de um mecanismo ETL é o AWS Glue.

Na camada de consumo de dados, os dados são carregados em seu cluster do Amazon Redshift, onde é possível executar workloads analíticas.

Para ver alguns exemplos de workloads analíticas, consulte Consultar fontes de dados externas.