Costos de utilizar Amazon Redshift ML
Con Amazon Redshift, puede aprovechar las capacidades de machine learning para obtener información a partir de los datos sin necesidad de contar con una amplia experiencia en ingeniería de datos o machine learning. En las siguientes secciones se describen los costos asociados al uso de Amazon Redshift ML, lo que le ayuda a planificar y optimizar los gastos y, al mismo tiempo, aprovechar esta potente integración de machine learning.
Costos por el uso de Amazon Redshift ML con SageMaker AI
Amazon Redshift ML para SageMaker AI usa los recursos de clúster existentes para la predicción, de modo que pueda evitar cargos adicionales de Amazon Redshift. No hay ningún cargo adicional de Amazon Redshift por crear o utilizar un modelo. La predicción se realiza localmente en el clúster de Redshift, por lo que no tiene que pagar más, a menos que necesite redimensionar el clúster. Amazon Redshift ML utiliza Amazon SageMaker AI para entrenar su modelo, lo que conlleva un costo adicional.
Las funciones de predicción que se ejecutan dentro de su clúster de Amazon Redshift no conllevan ningún cargo adicional. La instrucción CREATE MODEL utiliza Amazon SageMaker AI y conlleva un costo adicional. El costo aumenta en función del número de celdas de los datos de formación. El número de celdas se obtiene de multiplicar el número de registros (en la consulta de formación o en los tiempos de la tabla) por el número de columnas. Por ejemplo, cuando una consulta SELECT de la instrucción CREATE MODEL crea 10 000 registros y 5 columnas, se crean 50 000 celdas.
En algunos casos, los datos de formación obtenidos con la consulta SELECT de CREATE MODEL superan el límite de MAX_CELLS que se proporcionó (o el límite predeterminado de 1 millón en caso de no haberlo hecho). En estos casos, CREATE MODEL elige de manera aleatoria un número aproximado para MAX_CELLS (es decir, los registros del “número de columnas” del conjunto de datos de formación). CREATE MODEL realiza la formación utilizando estas tuplas elegidas de manera aleatoria. Las muestras aleatorias garantizan que el conjunto de datos de formación reducido no tenga ningún tipo de sesgo. Por lo tanto, mediante la configuración de MAX_CELLS, puede controlar los costos de formación.
Cuando se utiliza la instrucción CREATE MODEL, se pueden utilizar las opciones MAX_CELLS y MAX_RUNTIME para controlar los costos, el tiempo y la posible precisión del modelo.
MAX_RUNTIME especifica la cantidad máxima de tiempo que puede durar el entrenamiento en SageMaker AI si se utiliza la opción AUTO ON u OFF. Los trabajos de formación suelen completarse antes que lo establecido en MAX_RUNTIME, en función del tamaño del conjunto de datos. Una vez que se haya formado un modelo, Amazon Redshift realiza más trabajo en segundo plano para compilar e instalar los modelos en el clúster. Por lo tanto, CREATE MODEL puede tardar más en completarse que lo establecido en MAX_RUNTIME. No obstante, MAX_RUNTIME limita la cantidad de tiempo y computación utilizados en SageMaker AI para entrenar el modelo. Puede verificar el estado de su modelo en cualquier momento con la opción SHOW MODEL.
Cuando se ejecuta CREATE MODEL con AUTO ON, Amazon Redshift ML recurre al Piloto automático de Amazon SageMaker AI para explorar de forma automática e inteligente diferentes modelos (o candidatos) con el objetivo de encontrar el más adecuado. MAX_RUNTIME limita la cantidad de tiempo y de cómputo empleados. Si MAX_RUNTIME se establece con un valor demasiado bajo, es posible que no se disponga de tiempo suficiente para explorar ni siquiera un candidato. Si ve el error “Autopilot candidate has no models” (El candidato de Autopilot no tiene modelos), vuelva a ejecutar CREATE MODEL con un valor para MAX_RUNTIME más grande. Para obtener más información sobre este parámetro, consulte MaxAutoMLJobRuntimeInSeconds en la Referencia de la API de Amazon SageMaker AI.
Cuando se ejecuta CREATE MODEL con AUTO OFF, MAX_RUNTIME representa un límite de tiempo de ejecución del trabajo de entrenamiento en SageMaker AI. Los trabajos de formación suelen completarse en menos tiempo en función del tamaño del conjunto de datos y de otros parámetros utilizados, como num_rounds en MODEL_TYPE XGBOOST.
También se pueden controlar los costos o acortar el tiempo de formación al especificar un valor menor para MAX_CELLS cuando se ejecuta CREATE MODEL. Una celda es una entrada en la base de datos. Cada fila corresponde a tantas celdas como columnas, cuyo ancho puede ser fijo o variable. MAX_CELLS limita el número de celdas y, por tanto, el número de ejemplos de formación utilizados a la hora de formar el modelo. De forma predeterminada, MAX_CELLS se configura en 1 millón de celdas. La reducción de MAX_CELLS disminuye el número de filas del resultado de la consulta SELECT en CREATE MODEL que Amazon Redshift exporta y envía a SageMaker AI para entrenar un modelo. Por lo tanto, la reducción de MAX_CELLS disminuye el tamaño del conjunto de datos utilizado para la formación de los modelos, tanto con AUTO ON como con AUTO OFF. Este enfoque permite reducir los costos y el tiempo de formación de los modelos. Para ver información sobre los tiempos facturación y entrenamiento de un trabajo de entrenamiento específico, elija Trabajos de entrenamiento en Amazon SageMaker AI.
El aumento de MAX_RUNTIME y MAX_CELLS suele mejorar la calidad del modelo, ya que permite a SageMaker AI ver más candidatos. De esta manera, SageMaker AI puede dedicar más tiempo entrenar a cada candidato y emplear más datos para entrenar mejores modelos. Si desea disponer de una iteración o exploración más rápida de su conjunto de datos, utilice MAX_RUNTIME y MAX_CELLS con valores más bajos. Si desea mejorar la precisión de los modelos, utilice MAX_RUNTIME y MAX_CELLS con valores más altos.
Para obtener más información sobre los costos asociados a los distintos números de celdas y los detalles de la prueba gratuita, consulte Precios de Amazon Redshift
Costos por el uso de Amazon Redshift ML con Amazon Bedrock
El uso de Amazon Redshift ML con Amazon Bedrock genera costos adicionales. Para obtener más información, consulte Precios de Amazon Bedrock