Com o Amazon Redshift, é possível aproveitar os recursos de machine learning para extrair insights de seus dados, sem a necessidade de uma ampla experiência em engenharia de dados ou machine learning. As seções a seguir descrevem os custos associados ao uso do Amazon Redshift ML e ajudam você a planejar e otimizar suas despesas, bem como a aproveitar essa avançada integração de machine learning.
Custos para usar o Amazon Redshift ML com o SageMaker AI
O Amazon Redshift ML para SageMaker AI usa seus recursos de cluster existentes para previsão, de modo que você possa evitar cobranças adicionais do Amazon Redshift. Não há cobrança adicional do Amazon Redshift para criar ou usar um modelo. A previsão acontece no local, no cluster do Redshift, então não é necessário pagar mais, a menos que você precise redimensionar o cluster. O Amazon Redshift ML usa o Amazon SageMaker AI para treinar seu modelo, o que tem um custo adicional associado.
Não há cobrança adicional para funções de previsão executadas no seu cluster do Amazon Redshift. A instrução CREATE MODEL usa o Amazon SageMaker AI e incorre em um custo adicional. O custo aumenta com o número de células em seus dados de treinamento. O número de células é o produto do número de registros (nos horários de consulta de treinamento ou tabela) vezes o número de colunas. Por exemplo, quando uma consulta SELECT da instrução CREATE MODEL cria 10.000 registros e 5 colunas, o número de células que ela cria é 50.000.
Em alguns casos, os dados de treinamento produzidos pela consulta SELECT da instrução CREATE MODEL excedem o limite MAX_CELLS fornecido (ou o padrão 1 milhão, se você não forneceu um limite). Nesses casos, a instrução CREATE MODEL escolhe de modo aleatório aproximadamente MAX_CELLS (ou seja, os registros de “número de colunas” do conjunto de dados de treinamento). A instrução CREATE MODEL então executa o treinamento usando essas tuplas escolhidas aleatoriamente. A amostragem aleatória garante que o conjunto de dados de treinamento reduzido não tenha qualquer viés. Assim, definindo o MAX_CELLS, você pode controlar seus custos de treinamento.
Ao usar a instrução CREATE MODEL, você pode usar as opções MAX_CELLS e MAX_RUNTIVE para controlar os custos, o tempo e a precisão do modelo potencial.
MAX_RUNTIME especifica o tempo máximo que o treinamento pode levar no SageMaker AI quando a opção AUTO ON ou OFF é usada. Os trabalhos de treinamento geralmente concluem antes do MAX_RUNTIVE, dependendo do tamanho do conjunto de dados. Depois que um modelo é treinado, o Amazon Redshift faz um trabalho adicional em segundo plano para compilar e instalar seus modelos em seu cluster. Assim, CREATE MODEL pode demorar mais do que MAX_RUNTIVE. No entanto, MAX_RUNTIME limita a quantidade de computação e tempo usados no SageMaker AI para treinar seu modelo. Você pode verificar o status do seu modelo a qualquer momento usando SHOW MODEL.
Quando você executa CREATE MODEL com AUTO ON, o Amazon Redshift ML usa o SageMaker AI Autopilot para explorar de forma automática e inteligente diferentes modelos (ou candidatos) para encontrar o melhor. MAX_RUNTURE limita a quantidade de tempo e a computação gasta. Se MAX_RUNTIVE estiver definido muito baixo, talvez não haja tempo suficiente para explorar até mesmo um candidato. Se vir o erro “Candidato de piloto automático não tem modelos”, execute novamente o CREATE MODEL com um valor MAX_RUNTIVE maior. Para obter mais informações sobre esse parâmetro, consulte MaxAutoMLJobRuntimeInSeconds na Referência de API do Amazon SageMaker AI.
Quando você executa CREATE MODEL com AUTO OFF, MAX_RUNTIME corresponde a um limite de tempo de execução do trabalho de treinamento no SageMaker AI. Os trabalhos de treinamento geralmente são concluídos mais cedo, dependendo do tamanho do conjunto de dados e de outros parâmetros usados, como num_rounds em MODEL_TYPE XGBOOST.
Você também pode controlar custos ou reduzir o tempo de treinamento especificando um valor MAX_CELLS menor ao executar CREATE MODEL. A célula é uma entrada no banco de dados. Cada linha corresponde a tantas células quanto existem colunas, que podem ser de largura fixa ou variável. MAX_CELLS limita o número de células e, portanto, o número de exemplos de treinamento usados para treinar seu modelo. Por padrão, MAX_CELLS é definido como 1 milhão de células. Reduzir MAX_CELLS diminui o número de linhas do resultado da consulta SELECT no CREATE MODEL que o Amazon Redshift exporta e envia ao SageMaker para treinar um modelo. Reduzindo MAX_CELLS, assim, reduz o tamanho do conjunto de dados usado para treinar modelos com AUTO ON e AUTO OFF. Essa abordagem ajuda a reduzir os custos e o tempo para treinar modelos. Para ver informações sobre treinamento e tempos de cobrança de um trabalho de treinamento específico, selecione Trabalhos de treinamento no Amazon SageMaker AI.
Aumentar MAX_RUNTIME e MAX_CELLS geralmente melhora a qualidade do modelo, permitindo que o SageMaker AI explore mais candidatos. Dessa forma, o SageMaker AI pode ter mais tempo para treinar cada candidato e usar mais dados para treinar modelos melhores. Se você quiser uma iteração ou exploração mais rápida do seu conjunto de dados, use MAX_RUNTIVE e MAX_CELLS inferiores. Se você quiser uma precisão aprimorada dos modelos, use MAX_RUNTIVE e MAX_CELLS superiores.
Para obter mais informações sobre os custos associados a vários números de celular e detalhes sobre o teste gratuito, consulte Preços do Amazon Redshift
Custos para usar o Amazon Redshift ML com o Amazon Bedrock
O uso do Amazon Redshift ML com o Amazon Bedrock gera custos adicionais. Para obter mais informações, consulte Preço do Amazon Bedrock