Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cálculo de referencia, detección de desviaciones y ciclo de vida con Amazon SageMaker Pipelines ClarifyCheck y QualityCheck pasos
En el siguiente tema se analiza cómo evolucionan las líneas base y las versiones de los modelos en Amazon SageMaker Pipelines cuando se utilizan los ClarifyCheck pasos y. QualityCheck
Para el paso ClarifyCheck
, una referencia es un archivo único que reside en las propiedades del paso con el sufijo constraints
. Para el paso QualityCheck
, una referencia es una combinación de dos archivos que residen en las propiedades del paso: uno con el sufijo statistics
y otro con el sufijo constraints
. En los siguientes temas, analizamos estas propiedades con un prefijo que describe cómo se utilizan, lo que afecta al comportamiento de la referencia y al ciclo de vida en estos dos pasos de la canalización. Por ejemplo, el paso ClarifyCheck
siempre calcula y asigna las nuevas líneas de base en la propiedad CalculatedBaselineConstraints
y el paso QualityCheck
hace lo mismo en las propiedades CalculatedBaselineConstraints
y CalculatedBaselineStatistics
.
Cálculo de referencia, registro y pasos ClarifyCheck QualityCheck
Tanto el paso ClarifyCheck
como el QualityCheck
calculan las nuevas referencias en función de las entradas del paso durante la ejecución del trabajo de procesamiento subyacente. Se accede a estas líneas de base recién calculadas a través de las propiedades con el prefijo CalculatedBaseline
. Puede registrar estas propiedades como las ModelMetrics
de su paquete de modelos en el Paso de modelar. Este paquete de modelos se puede registrar con 5 líneas de base diferentes. Puede registrarlo con una para cada tipo de comprobación: sesgo de los datos, sesgo del modelo y explicabilidad del modelo al ejecutar el paso ClarifyCheck
y la calidad del modelo, y la calidad de los datos al ejecutar el paso QualityCheck
. El parámetro register_new_baseline
indica el valor establecido en las propiedades con el prefijo BaselineUsedForDriftCheck
después de ejecutar un paso.
La siguiente tabla de posibles casos de uso muestra los diferentes comportamientos que se derivan de los parámetros del paso que se pueden configurar para los pasos ClarifyCheck
y QualityCheck
:
Posible caso de uso que puede considerar para seleccionar esta configuración | skip_check / register_new_baseline |
¿Step comprueba la desviación? | Valor de la propiedad del paso CalculatedBaseline |
Valor de la propiedad del paso BaselineUsedForDriftCheck |
---|---|---|---|---|
Realiza un reentrenamiento periódico con las comprobaciones habilitadas para obtener una nueva versión del modelo, pero desea conservar las líneas de base anteriores como las |
False / False |
La comprobación de la desviación se realiza con respecto a las líneas de base existentes. | Las nuevas líneas de base se calculan ejecutando el paso. | Referencia del modelo más reciente aprobado en el registro de modelos o referencia proporcionada como parámetro del paso. |
Realiza un reentrenamiento periódico con las comprobaciones habilitadas para obtener una nueva versión del modelo, pero desea actualizar las |
False / True |
La comprobación de la desviación se realiza con respecto a las líneas de base existentes. | Las nuevas líneas de base se calculan ejecutando el paso. | Referencia recién calculada al ejecutar el paso (valor de la propiedad CalculatedBaseline ). |
Está iniciando la canalización para volver a entrenar una nueva versión del modelo porque Amazon SageMaker Model Monitor ha detectado una infracción en un punto final para un tipo de verificación en particular, y desea omitir este tipo de verificación con respecto a la línea base anterior, pero transferir la línea base anterior tal como aparece |
True / False |
Sin comprobación de desviación | Las nuevas líneas de base se calculan al ejecutar el paso. | Referencia del modelo más reciente aprobado en el registro de modelos o referencia proporcionada como parámetro del paso. |
Esto sucede en los siguientes casos:
|
True / True |
Sin comprobación de desviación | Las nuevas líneas de base se calculan ejecutando el paso. | Referencia recién calculada al ejecutar el paso (valor de la propiedad CalculatedBaseline ). |
nota
Si utiliza la notación científica en la restricción, tendrá que convertirla en flotante. Para ver un ejemplo de script de preprocesamiento sobre cómo hacer esto, consulte Creación de una referencia de calidad del modelo.
Al registrar un modelo en Paso de modelar, puede registrar la propiedad BaselineUsedForDriftCheck
como DriftCheckBaselines
. Luego, el monitor de modelos puede utilizar estos archivos de referencia para comprobar la calidad de los modelos y los datos. Además, estas líneas base también se pueden utilizar en el QualityCheck
paso ClarifyCheckStep y para comparar los modelos recién entrenados con los modelos existentes que están registrados en el registro de modelos para futuras ejecuciones en canalización.
Detección de desviaciones en oleoductos con respecto a las líneas de base anteriores
En el caso del paso QualityCheck
, al iniciar la canalización para el reentrenamiento periódico para obtener una nueva versión del modelo, es posible que no desee ejecutar el paso de entrenamiento si la calidad de los datos y el sesgo de los datos tienen Esquema para infracciones (archivo constraint_violations.json) en las líneas de base de la versión anterior del modelo aprobada. Es posible que tampoco desee registrar la versión del modelo recién entrenada si la calidad, el sesgo o la explicabilidad del modelo infringen la referencia registrada de la versión anterior del modelo aprobada al ejecutar el paso ClarifyCheck
. En estos casos, puede habilitar las comprobaciones que desee al configurar la propiedad skip_check
del paso de comprobación correspondiente en False
, lo que provocará un error en el paso ClarifyCheck
y QualityCheck
si se detecta una infracción con respecto a las líneas de base anteriores. Entonces, el proceso de canalización no continúa, por lo que el modelo que se ha desviado de la referencia no queda registrado. Los pasos ClarifyCheck
y QualityCheck
pueden obtener las DriftCheckBaselines
de la versión más reciente del modelo aprobada de un grupo de paquetes de modelos determinado con la que comparar. Las líneas de base anteriores también se pueden proporcionar directamente a través de supplied_baseline_constraints
(además de supplied_baseline_statistics
si se trata de un paso QualityCheck
) y siempre se les da prioridad sobre las líneas de base extraídas del grupo de paquetes de modelos.
Evolución y ciclo de vida de las versiones de referencia y modelo con Pipelines
Al establecer la register_new_baseline
de su paso ClarifyCheck
y QualityCheck
en False
, podrá acceder a su referencia anterior mediante el prefijo BaselineUsedForDriftCheck
de propiedad del paso. A continuación, puede registrar estas líneas de base como las DriftCheckBaselines
de la nueva versión del modelo cuando registra un modelo con Paso de modelar. Una vez que apruebe esta nueva versión del modelo en el registro de modelos, la DriftCheckBaseline
de esta versión del modelo estará disponible para los pasos ClarifyCheck
y QualityCheck
en el siguiente proceso de canalización. Si desea actualizar la referencia de un tipo de verificación determinado para futuras versiones del modelo, puede configurar la register_new_baseline
en True
para que las propiedades con el prefijo BaselineUsedForDriftCheck
se conviertan en la referencia recién calculada. De esta forma, puede conservar sus líneas de base preferidas para un modelo entrenado en el futuro, o actualizar las líneas de base para comprobar las desviaciones cuando sea necesario, administrando la evolución y el ciclo de vida de las líneas de base a lo largo de las iteraciones de entrenamiento del modelo.
El siguiente diagrama ilustra una model-version-centric vista de la evolución y el ciclo de vida de referencia.