Realizar uma prova de conceito (POC) para o Amazon Redshift - Amazon Redshift

Realizar uma prova de conceito (POC) para o Amazon Redshift

O Amazon Redshift, um conhecido data warehouse na nuvem, oferece um serviço totalmente gerenciado baseado em nuvem que se integra ao data lake do Amazon Simple Storage Service de uma organização, fluxos de trabalho em tempo real, fluxos de trabalho de machine learning (ML), fluxos de trabalho transacionais e muito mais. As seções a seguir orientam você no processo de realização de uma prova de conceito (POC) no Amazon Redshift. As informações aqui ajudam você a definir metas para a POC e aproveitam as ferramentas que podem automatizar o provisionamento e a configuração de serviços para a POC.

nota

Tenha uma cópia dessas informações em PDF no link Execute sua própria POC do Redshift na página Recursos do Amazon Redshift.

Ao fazer uma POC do Amazon Redshift, você testa, comprova e adota recursos que vão desde recursos de segurança de ponta, escalabilidade elástica, facilidade de integração e ingestão e opções flexíveis de arquitetura de dados descentralizada.

Mostra uma descrição das etapas do fluxo de prova de conceito.

Siga estas etapas para realizar uma POC bem-sucedida.

Etapa 1: Definir o escopo da POC

Mostra que a etapa de escopo é a etapa atual no fluxo de prova de conceito.

Ao realizar uma POC, você pode optar por usar seus próprios dados ou usar conjuntos de dados de referência. Ao optar por seus próprios dados, você executa suas próprias consultas nos dados. Com os dados de referência, são fornecidas consultas de exemplo com a referência. Consulte Usar conjuntos de dados de amostra para obter mais detalhes se você achar que ainda não é o momento certo para realizar uma POC com seus próprios dados.

Geralmente, recomendamos usar duas semanas de dados para uma POC do Amazon Redshift.

Primeiro, faça o seguinte:

  1. Identifique seus requisitos comerciais e funcionais e, seguida, trabalhe de trás para frente. Exemplos comuns são: desempenho mais rápido, custos mais baixos, teste de uma nova workload ou um novo recurso ou comparação entre o Amazon Redshift e outro data warehouse.

  2. Estabeleça metas específicas para que se tornem os critérios de sucesso para a POC. Por exemplo, com base no desempenho mais rápido, crie uma lista dos cinco principais processos que você deseja acelerar e inclua os tempos de execução atuais com o tempo de execução necessário. Podem ser relatórios, consultas, processos de ETL, ingestão de dados ou qualquer um de seus pontos problemáticos atuais.

  3. Identifique o escopo e os artefatos específicos necessários para executar os testes. Quais conjuntos de dados você precisa migrar ou ingerir continuamente no Amazon Redshift e quais consultas e processos são necessários para executar os testes e avaliar os critérios de sucesso? Há duas maneiras de fazer isso:

    Traga seus próprios dados
    • Para testar seus próprios dados, crie uma lista mínima viável de artefatos de dados necessários para testar seus critérios de sucesso. Por exemplo, se seu data warehouse atual tem 200 tabelas, mas os relatórios que você deseja testar precisam apenas de 20, sua POC pode ser realizada mais rapidamente usando somente o subconjunto menor de tabelas.

    Usar conjuntos de dados de amostra
    • Se você não tiver seus próprios conjuntos de dados prontos, mesmo assim poderá começar a realizar uma POC no Amazon Redshift usando os conjuntos de dados de referência padrão do setor, como TPC-DS ou TPC-H, e executar consultas de exemplo de referência para aproveitar o potencial do Amazon Redshift. Depois de criados, esses conjuntos de dados podem ser acessados por meio do data warehouse do Amazon Redshift. Para obter instruções detalhadas sobre como acessar esses conjuntos de dados e consultas de exemplo, consulte Etapa 2: Iniciar o Amazon Redshift.

Etapa 2: Iniciar o Amazon Redshift

Mostra que a etapa de inicialização do Amazon Redshift é a etapa atual no fluxo de prova de conceito.

O Amazon Redshift acelera seu tempo de obtenção de insights com armazenamento de dados rápido, fácil, seguro e em grande escalar. Você pode começar rapidamente iniciando seu warehouse no console do Redshift sem servidor e passar dos dados aos insights em segundos. Com o Redshift sem servidor, você pode se concentrar na obtenção de resultados comerciais sem se preocupar em gerenciar o data warehouse.

Configurar o Amazon Redshift sem servidor

Na primeira vez que você usa o Redshift sem servidor, o console conduz você pelas etapas necessárias para iniciar o warehouse. Você também pode ser elegível para receber um crédito pelo uso do Redshift sem servidor em sua conta. Para obter mais informações sobre a escolha de um teste gratuito, consulteTeste gratuito do Amazon Redshift. Siga as etapas em Criar um data warehouse com o Amazon Redshift sem servidor no Guia de conceitos básicos do Amazon Redshift para criar um data warehouse com o Redshift sem servidor. Se você não tiver um conjunto de dados que gostaria de carregar, o guia também contém etapas sobre como carregar um conjunto de dados de exemplo.

Se você já iniciou o Redshift sem servidor em sua conta, siga as etapas em Criar um grupo de trabalho com um namespace no Guia de gerenciamento do Amazon Redshift. Depois que o warehouse estiver disponível, você poderá optar por carregar os dados de amostra disponíveis no Amazon Redshift. Para obter mais informações sobre o Editor de Consultas do Amazon Redshift v2, acesse Carregar dados de exemplo no Guia de gerenciamento do Amazon Redshift.

Se você estiver trazendo seus próprios dados, e não carregando o conjunto de dados de amostra, consulte Etapa 3: Carregar os dados.

Etapa 3: Carregar os dados

Mostra que a etapa de carregamento é a etapa atual no fluxo de prova de conceito.

Depois de iniciar o Redshift sem servidor, a etapa seguinte é carregar os dados para a POC. Se você estiver carregando um arquivo CSV simples, ingerindo dados semiestruturados do S3 ou transmitindo dados diretamente, o Amazon Redshift oferece a flexibilidade de mover os dados da fonte para as tabelas do Amazon Redshift com rapidez e facilidade.

Escolha um dos métodos a seguir para carregar os dados.

Carregar um arquivo local

Para agilizar a ingestão e análise, você pode usar o Editor de Consultas do Amazon Redshift v2 para carregar facilmente arquivos de dados do seu desktop local. Ele tem capacidade para processar arquivos em vários formatos, como CSV, JSON, AVRO, PARQUET, ORC e muito mais. Para permitir que seus usuários, como um administrador, carreguem dados de um desktop local usando o editor de consultas v2, é necessário especificar um bucket comum do Amazon S3 e a conta do usuário deve ser configurada com as permissões adequadas. Você pode acompanhar a publicação Data load made easy and secure in Amazon Redshift using Query Editor V2 para obter orientações detalhadas.

Carregar um arquivo do Amazon S3

Para carregar dados de um bucket do Amazon S3 no Amazon Redshift, primeiro use o comando COPY e especifique o local de origem do Amazon S3 e a tabela de destino do Amazon Redshift. Os perfis do IAM e as permissões devem estar configurados adequadamente para permitir que o Amazon Redshift acesse o bucket designado do Amazon S3. Siga o Tutorial: Carregar dados do Amazon S3 para obter orientações detalhadas. Você também pode escolher a opção Carregar dados no editor de consultas v2 para carregar dados diretamente do bucket do S3.

Ingestão de dados contínua

A cópia automática (em versão de demonstração) é uma extensão do comando COPY e automatiza o carregamento contínuo de dados dos buckets do Amazon S3. Quando você cria um trabalho COPY, o Amazon Redshift detecta quando são criados arquivos do Amazon S3 em um caminho especificado e os carrega automaticamente sem sua intervenção. O Amazon Redshift monitora os arquivos carregados para verificar se eles são carregados apenas uma vez. Para obter instruções sobre como criar trabalhos de cópia, consulte COPY JOB (pré-visualização)

nota

No momento, a cópia automática está em versão de demonstração e só pode ser usada em clusters provisionados em Regiões da AWS específicas. Para criar um cluster de visualização prévia para cópia automática, consulte Carregar tabelas com ingestão contínua de arquivos do Amazon S3 (visualização prévia).

Carregar dados de streaming

A ingestão de streaming fornece ingestão de dados de fluxo de baixa latência e alta velocidade do Amazon Kinesis Data Streams e do Amazon Managed Streaming for Apache Kafka no Amazon Redshift. A ingestão de streaming do Amazon Redshift usa uma visão materializada, que é atualizada diretamente do fluxo utilizando atualização automática. A exibição materializada mapeia para a fonte de dados da transmissão. Você pode executar filtragem e agregações nos dados de fluxo como parte da definição de visão materializada. Para obter orientações detalhadas sobre como carregar dados de um fluxo, consulte Conceitos básicos da ingestão de streaming do Amazon Kinesis Data Streams ou Conceitos básicos da ingestão de streaming do Amazon Managed Streaming para Apache Kafka.

Etapa 4: Analisar os dados

Mostra que a etapa de análise é a etapa atual no fluxo de prova de conceito.

Depois de criar seu grupo de trabalho e namespace do Redshift sem servidor e carregar os dados, você pode executar consultas imediatamente abrindo o Editor de consultas v2 no painel de navegação do console do Redshift sem servidor. É possível usar o editor de consultas v2 para testar a funcionalidade de consulta ou o desempenho da consulta em seus próprios conjuntos de dados.

Realizar consultas com o Editor de Consultas do Amazon Redshift v2

É possível usar o editor de consultas v2 pelo console do Amazon Redshift. Consulte Simplify your data analysis with Amazon Redshift query editor v2 para obter um guia completo sobre como configurar, conectar e executar consultas com o editor de consultas v2.

Como alternativa, se você quiser executar um teste de carga como parte da POC, é possível fazê-lo seguindo as etapas a seguir para instalar e executar o Apache JMeter.

Executar um teste de carga usando o Apache JMeter

Para realizar um teste de carga e simular “N” usuários que estão enviando consultas simultaneamente ao Amazon Redshift, você pode usar o Apache JMeter, uma ferramenta de código aberto baseada em Java.

Para instalar e configurar o Apache JMeter para ser executado em seu grupo de trabalho do Redshift sem servidor, siga as instruções em Automate Amazon Redshift load testing with the AWS Analytics Automation Toolkit. Ele usa o kit de ferramentas AWS Analytics Automation (AAA), um utilitário de código aberto destinado a implantar dinamicamente as soluções do Redshift, para iniciar automaticamente esses recursos. Se você carregou seus próprios dados no Amazon Redshift, execute a opção Etapa 5: Personalizar SQL para que você forneça as instruções SQL apropriadas que gostaria de testar em suas tabelas. Teste cada uma dessas instruções SQL uma vez usando o editor de consultas v2 para garantir que elas sejam executadas sem erros.

Depois de concluir a personalização de suas instruções SQL e finalizar seu plano de teste, salve-o e execute-o em seu grupo de trabalho do Redshift sem servidor. Para monitorar o andamento do seu teste, abra o console do Redshift sem servidor, acesse Monitoramento de consultas e bancos de dados, escolha a guia Histórico de consultas e visualize informações sobre suas consultas.

Para métricas de desempenho, escolha a guia Desempenho do banco de dados no console do Redshift sem servidor para monitorar métricas como Conexões de banco de dados e Utilização da CPU. Aqui você pode ver um grafo para monitorar a capacidade de RPU usada e observar como o Redshift sem servidor é escalado automaticamente para atender às demandas simultâneas de workload enquanto o teste de carga está sendo executado no grupo de trabalho.

Exemplo de grafo mostrando a capacidade média de RPU usada.

As conexões de banco de dados são outra métrica útil a ser monitorada durante a execução do teste de carga para ver como o grupo de trabalho está lidando com várias conexões simultâneas em determinado momento e atender às crescentes demandas da workload.

Exemplo de grafo mostrando conexões de banco de dados.

Etapa 5: Otimizar

Mostra que a etapa de otimização é a etapa atual no fluxo de prova de conceito.

O Amazon Redshift possibilita que dezenas de milhares de usuários processem exabytes de dados todos os dias e potencializem suas workloads de análise. Para isso, ele oferece uma variedade de configurações e recursos para atender a casos de uso individuais. Ao escolher entre essas opções, os clientes procuram ferramentas que os ajudem a determinar a configuração ideal de data warehouse para atender à workload do Amazon Redshift.

Test Drive

Você pode usar o Test Drive para reproduzir automaticamente a workload existente em configurações possíveis e analisar as saídas correspondentes para avaliar o destino ideal para o qual migrar sua workload. Consulte Find the best Amazon Redshift configuration for your workload using Redshift Test Drive para obter informações sobre como usar o Test Drive para avaliar diferentes configurações do Amazon Redshift.