Cálculo de referencia, detección de desviaciones y ciclo de vida con Amazon SageMaker Pipelines ClarifyCheck y QualityCheck pasos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cálculo de referencia, detección de desviaciones y ciclo de vida con Amazon SageMaker Pipelines ClarifyCheck y QualityCheck pasos

En el siguiente tema se analiza cómo evolucionan las líneas base y las versiones de los modelos en Amazon SageMaker Pipelines cuando se utilizan los ClarifyCheck pasos y. QualityCheck

Para el paso ClarifyCheck, una referencia es un archivo único que reside en las propiedades del paso con el sufijo constraints. Para el paso QualityCheck, una referencia es una combinación de dos archivos que residen en las propiedades del paso: uno con el sufijo statistics y otro con el sufijo constraints. En los siguientes temas, analizamos estas propiedades con un prefijo que describe cómo se utilizan, lo que afecta al comportamiento de la referencia y al ciclo de vida en estos dos pasos de la canalización. Por ejemplo, el paso ClarifyCheck siempre calcula y asigna las nuevas líneas de base en la propiedad CalculatedBaselineConstraints y el paso QualityCheck hace lo mismo en las propiedades CalculatedBaselineConstraints y CalculatedBaselineStatistics.

Cálculo de referencia, registro y pasos ClarifyCheck QualityCheck

Tanto el paso ClarifyCheck como el QualityCheck calculan las nuevas referencias en función de las entradas del paso durante la ejecución del trabajo de procesamiento subyacente. Se accede a estas líneas de base recién calculadas a través de las propiedades con el prefijo CalculatedBaseline. Puede registrar estas propiedades como las ModelMetrics de su paquete de modelos en el Paso de modelar. Este paquete de modelos se puede registrar con 5 líneas de base diferentes. Puede registrarlo con una para cada tipo de comprobación: sesgo de los datos, sesgo del modelo y explicabilidad del modelo al ejecutar el paso ClarifyCheck y la calidad del modelo, y la calidad de los datos al ejecutar el paso QualityCheck. El parámetro register_new_baseline indica el valor establecido en las propiedades con el prefijo BaselineUsedForDriftCheck después de ejecutar un paso.

La siguiente tabla de posibles casos de uso muestra los diferentes comportamientos que se derivan de los parámetros del paso que se pueden configurar para los pasos ClarifyCheck y QualityCheck:

Posible caso de uso que puede considerar para seleccionar esta configuración skip_check / register_new_baseline ¿Step comprueba la desviación? Valor de la propiedad del paso CalculatedBaseline Valor de la propiedad del paso BaselineUsedForDriftCheck

Realiza un reentrenamiento periódico con las comprobaciones habilitadas para obtener una nueva versión del modelo, pero desea conservar las líneas de base anteriores como las DriftCheckBaselines en el registro de modelos para su nueva versión del modelo.

False/ False La comprobación de la desviación se realiza con respecto a las líneas de base existentes. Las nuevas líneas de base se calculan ejecutando el paso. Referencia del modelo más reciente aprobado en el registro de modelos o referencia proporcionada como parámetro del paso.

Realiza un reentrenamiento periódico con las comprobaciones habilitadas para obtener una nueva versión del modelo, pero desea actualizar las DriftCheckBaselines en el registro de modelos con las nuevas líneas de base calculadas para su nueva versión del modelo.

False/ True La comprobación de la desviación se realiza con respecto a las líneas de base existentes. Las nuevas líneas de base se calculan ejecutando el paso. Referencia recién calculada al ejecutar el paso (valor de la propiedad CalculatedBaseline).

Está iniciando la canalización para volver a entrenar una nueva versión del modelo porque Amazon SageMaker Model Monitor ha detectado una infracción en un punto final para un tipo de verificación en particular, y desea omitir este tipo de verificación con respecto a la línea base anterior, pero transferir la línea base anterior tal como aparece DriftCheckBaselines en el registro del modelo para su nueva versión de modelo.

True/ False Sin comprobación de desviación Las nuevas líneas de base se calculan al ejecutar el paso. Referencia del modelo más reciente aprobado en el registro de modelos o referencia proporcionada como parámetro del paso.
Esto sucede en los siguientes casos:
  • Inicia la ejecución inicial de la canalización, creando la primera versión del modelo y generando las líneas de base iniciales.

  • Inicia la canalización para volver a entrenar una nueva versión del modelo porque el monitor de modelos ha detectado una infracción en el punto de conexión relacionada con un tipo de comprobación concreto. Si desea omitir la comparación con la referencia anterior y actualizar las DriftCheckBaselines con la referencia recién calculada directamente en el registro de modelos.

True/ True Sin comprobación de desviación Las nuevas líneas de base se calculan ejecutando el paso. Referencia recién calculada al ejecutar el paso (valor de la propiedad CalculatedBaseline).
nota

Si utiliza la notación científica en la restricción, tendrá que convertirla en flotante. Para ver un ejemplo de script de preprocesamiento sobre cómo hacer esto, consulte Creación de una referencia de calidad del modelo.

Al registrar un modelo en Paso de modelar, puede registrar la propiedad BaselineUsedForDriftCheck como DriftCheckBaselines. Luego, el monitor de modelos puede utilizar estos archivos de referencia para comprobar la calidad de los modelos y los datos. Además, estas líneas base también se pueden utilizar en el QualityCheck paso ClarifyCheckStep y para comparar los modelos recién entrenados con los modelos existentes que están registrados en el registro de modelos para futuras ejecuciones en canalización.

Detección de desviaciones en oleoductos con respecto a las líneas de base anteriores

En el caso del paso QualityCheck, al iniciar la canalización para el reentrenamiento periódico para obtener una nueva versión del modelo, es posible que no desee ejecutar el paso de entrenamiento si la calidad de los datos y el sesgo de los datos tienen Esquema para infracciones (archivo constraint_violations.json) en las líneas de base de la versión anterior del modelo aprobada. Es posible que tampoco desee registrar la versión del modelo recién entrenada si la calidad, el sesgo o la explicabilidad del modelo infringen la referencia registrada de la versión anterior del modelo aprobada al ejecutar el paso ClarifyCheck. En estos casos, puede habilitar las comprobaciones que desee al configurar la propiedad skip_check del paso de comprobación correspondiente en False, lo que provocará un error en el paso ClarifyCheck y QualityCheck si se detecta una infracción con respecto a las líneas de base anteriores. Entonces, el proceso de canalización no continúa, por lo que el modelo que se ha desviado de la referencia no queda registrado. Los pasos ClarifyCheck y QualityCheck pueden obtener las DriftCheckBaselines de la versión más reciente del modelo aprobada de un grupo de paquetes de modelos determinado con la que comparar. Las líneas de base anteriores también se pueden proporcionar directamente a través de supplied_baseline_constraints (además de supplied_baseline_statistics si se trata de un paso QualityCheck) y siempre se les da prioridad sobre las líneas de base extraídas del grupo de paquetes de modelos.

Evolución y ciclo de vida de las versiones de referencia y modelo con Pipelines

Al establecer la register_new_baseline de su paso ClarifyCheck y QualityCheck en False, podrá acceder a su referencia anterior mediante el prefijo BaselineUsedForDriftCheck de propiedad del paso. A continuación, puede registrar estas líneas de base como las DriftCheckBaselines de la nueva versión del modelo cuando registra un modelo con Paso de modelar. Una vez que apruebe esta nueva versión del modelo en el registro de modelos, la DriftCheckBaseline de esta versión del modelo estará disponible para los pasos ClarifyCheck y QualityCheck en el siguiente proceso de canalización. Si desea actualizar la referencia de un tipo de verificación determinado para futuras versiones del modelo, puede configurar la register_new_baseline en True para que las propiedades con el prefijo BaselineUsedForDriftCheck se conviertan en la referencia recién calculada. De esta forma, puede conservar sus líneas de base preferidas para un modelo entrenado en el futuro, o actualizar las líneas de base para comprobar las desviaciones cuando sea necesario, administrando la evolución y el ciclo de vida de las líneas de base a lo largo de las iteraciones de entrenamiento del modelo.

El siguiente diagrama ilustra una model-version-centric vista de la evolución y el ciclo de vida de referencia.

Una model-version-centric vista de la evolución y el ciclo de vida de referencia.