Costos de utilizar Amazon Redshift ML - Amazon Redshift

Costos de utilizar Amazon Redshift ML

Con Amazon Redshift, puede aprovechar las capacidades de machine learning para obtener información a partir de los datos sin necesidad de contar con una amplia experiencia en ingeniería de datos o machine learning. En las siguientes secciones se describen los costos asociados al uso de Amazon Redshift ML, lo que le ayuda a planificar y optimizar los gastos y, al mismo tiempo, aprovechar esta potente integración de machine learning.

Costos por el uso de Amazon Redshift ML con SageMaker

Amazon Redshift ML para SageMaker usa los recursos de clúster existentes para la predicción, de modo que pueda evitar cargos adicionales de Amazon Redshift. No hay ningún cargo adicional de Amazon Redshift por crear o utilizar un modelo. La predicción se realiza localmente en el clúster de Redshift, por lo que no tiene que pagar más, a menos que necesite redimensionar el clúster. Amazon Redshift ML utiliza Amazon SageMaker para que su modelo reciba la formación correspondiente, lo que supone un costo adicional asociado.

Las funciones de predicción que se ejecutan dentro de su clúster de Amazon Redshift no conllevan ningún cargo adicional. La instrucción CREATE MODEL utiliza Amazon SageMaker y supone un costo adicional. El costo aumenta en función del número de celdas de los datos de formación. El número de celdas se obtiene de multiplicar el número de registros (en la consulta de formación o en los tiempos de la tabla) por el número de columnas. Por ejemplo, cuando una consulta SELECT de la instrucción CREATE MODEL crea 10 000 registros y 5 columnas, se crean 50 000 celdas.

En algunos casos, los datos de formación obtenidos con la consulta SELECT de CREATE MODEL superan el límite de MAX_CELLS que se proporcionó (o el límite predeterminado de 1 millón en caso de no haberlo hecho). En estos casos, CREATE MODEL elige de manera aleatoria un número aproximado para MAX_CELLS (es decir, los registros del “número de columnas” del conjunto de datos de formación). CREATE MODEL realiza la formación utilizando estas tuplas elegidas de manera aleatoria. Las muestras aleatorias garantizan que el conjunto de datos de formación reducido no tenga ningún tipo de sesgo. Por lo tanto, mediante la configuración de MAX_CELLS, puede controlar los costos de formación.

Cuando se utiliza la instrucción CREATE MODEL, se pueden utilizar las opciones MAX_CELLS y MAX_RUNTIME para controlar los costos, el tiempo y la posible precisión del modelo.

MAX_RUNTIME especifica la cantidad máxima de tiempo que puede durar la formación en SageMaker si se utiliza la opción AUTO ON u OFF. Los trabajos de formación suelen completarse antes que lo establecido en MAX_RUNTIME, en función del tamaño del conjunto de datos. Una vez que se haya formado un modelo, Amazon Redshift realiza más trabajo en segundo plano para compilar e instalar los modelos en el clúster. Por lo tanto, CREATE MODEL puede tardar más en completarse que lo establecido en MAX_RUNTIME. No obstante, MAX_RUNTIME limita la cantidad de tiempo y cómputo utilizados en SageMaker para formar su modelo. Puede verificar el estado de su modelo en cualquier momento con la opción SHOW MODEL.

Cuando se ejecuta CREATE MODEL con AUTO ON, Amazon Redshift ML recurre a SageMaker Autopilot para explorar de forma automática e inteligente diferentes modelos (o candidatos) con el objetivo de encontrar el más adecuado. MAX_RUNTIME limita la cantidad de tiempo y de cómputo empleados. Si MAX_RUNTIME se establece con un valor demasiado bajo, es posible que no se disponga de tiempo suficiente para explorar ni siquiera un candidato. Si ve el error “Autopilot candidate has no models” (El candidato de Autopilot no tiene modelos), vuelva a ejecutar CREATE MODEL con un valor para MAX_RUNTIME más grande. Para obtener más información sobre este parámetro, consulte MaxAutoMLJobRuntimeInSeconds en la Referencia de la API de Amazon SageMaker.

Cuando se ejecuta CREATE MODEL con AUTO OFF, MAX_RUNTIME representa un límite de tiempo de ejecución del trabajo de formación en SageMaker. Los trabajos de formación suelen completarse en menos tiempo en función del tamaño del conjunto de datos y de otros parámetros utilizados, como num_rounds en MODEL_TYPE XGBOOST.

También se pueden controlar los costos o acortar el tiempo de formación al especificar un valor menor para MAX_CELLS cuando se ejecuta CREATE MODEL. Una celda es una entrada en la base de datos. Cada fila corresponde a tantas celdas como columnas, cuyo ancho puede ser fijo o variable. MAX_CELLS limita el número de celdas y, por tanto, el número de ejemplos de formación utilizados a la hora de formar el modelo. De forma predeterminada, MAX_CELLS se configura en 1 millón de celdas. La reducción de MAX_CELLS disminuye el número de filas del resultado de la consulta SELECT en CREATE MODEL que Amazon Redshift exporta y envía a SageMaker con objeto de formar un modelo. Por lo tanto, la reducción de MAX_CELLS disminuye el tamaño del conjunto de datos utilizado para la formación de los modelos, tanto con AUTO ON como con AUTO OFF. Este enfoque permite reducir los costos y el tiempo de formación de los modelos. Para ver información sobre los tiempos de formación y facturación de un trabajo de formación específico, elija Training jobs (Trabajos de formación) en Amazon SageMaker.

El aumento de MAX_RUNTIME y MAX_CELLS a menudo mejora la calidad del modelo, ya que permite a SageMaker ver más candidatos. De esta manera, SageMaker puede dedicar más tiempo a la formación de cada candidato y emplear más datos para formar mejores modelos. Si desea disponer de una iteración o exploración más rápida de su conjunto de datos, utilice MAX_RUNTIME y MAX_CELLS con valores más bajos. Si desea mejorar la precisión de los modelos, utilice MAX_RUNTIME y MAX_CELLS con valores más altos.

Para obtener más información sobre los costos asociados a los distintos números de celdas y los detalles de la prueba gratuita, consulte Precios de Amazon Redshift.

Costos por el uso de Amazon Redshift ML con Amazon Bedrock

El uso de Amazon Redshift ML con Amazon Bedrock genera costos adicionales. Para obtener más información, consulte Precios de Amazon Bedrock.