Cálculo de linha de base, detecção de desvios, ciclo de vida e ClarifyCheck etapas QualityCheck no Amazon Model Building Pipelines SageMaker - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Cálculo de linha de base, detecção de desvios, ciclo de vida e ClarifyCheck etapas QualityCheck no Amazon Model Building Pipelines SageMaker

O tópico a seguir discute como as linhas de base e as versões do modelo evoluem no Amazon SageMaker Model Building Pipelines ao usar as etapas e. ClarifyCheck QualityCheck

Para a etapa ClarifyCheck, uma linha de base é um único arquivo que reside nas propriedades da etapa com o sufixo constraints. Para a etapa QualityCheck, uma linha de base é uma combinação de dois arquivos que residem nas propriedades da etapa: um com o sufixo statistics e outro com o sufixo constraints. Nos tópicos a seguir, discutimos essas propriedades com um prefixo que descreve como elas são usadas, afetando o comportamento básico e o ciclo de vida nessas duas etapas do pipeline. Por exemplo, a etapa ClarifyCheck sempre calcula e atribui as novas linhas de base na propriedade CalculatedBaselineConstraints e a etapa QualityCheck faz o mesmo nas propriedades CalculatedBaselineConstraints e CalculatedBaselineStatistics.

Cálculo e registro da linha de base ClarifyCheck e etapas QualityCheck

As etapas ClarifyCheck e QualityCheck sempre calculam novas linhas de base com base nas entradas da etapa por meio da execução do trabalho de processamento subjacente. Essas linhas de base recém-calculadas são acessadas por meio das propriedades com o prefixo CalculatedBaseline. Você pode registrar essas propriedades como as ModelMetrics do seu pacote de modelo no Etapa do modelo. Este pacote de modelo pode ser registrado com 5 linhas de base diferentes. Você pode registrá-lo com um para cada tipo de verificação: viés de dados, viés do modelo e explicabilidade do modelo a partir da execução da etapa ClarifyCheck e da qualidade do modelo, e qualidade dos dados da execução da etapa QualityCheck. O parâmetro register_new_baseline determina o valor definido nas propriedades com o prefixo BaselineUsedForDriftCheck após a execução de uma etapa.

A tabela a seguir de possíveis casos de uso mostra comportamentos diferentes resultantes dos parâmetros da etapa que você pode definir para as etapas ClarifyCheck e QualityCheck:

Possível caso de uso que você pode considerar para selecionar essa configuração skip_check / register_new_baseline O Step faz uma verificação de oscilação? Valor da propriedade da etapa CalculatedBaseline Valor da propriedade da etapa BaselineUsedForDriftCheck

Você está fazendo um novo treinamento regular com as verificações habilitadas para obter uma nova versão do modelo, mas deseja transferir as linhas de base anteriores conforme estão DriftCheckBaselines no registro do modelo para sua nova versão do modelo.

False/ False A verificação de deriva é executada em relação às linhas de base existentes Novas linhas de base calculadas executando a etapa Linha de base do último modelo aprovado no Model Registry ou a linha de base fornecida como parâmetro de etapa

Você está fazendo um novo treinamento regular com as verificações habilitadas para obter uma nova versão do modelo, mas deseja atualizá-las DriftCheckBaselines no registro do modelo com as linhas de base recém-calculadas para sua nova versão do modelo.

False/ True A verificação de deriva é executada em relação às linhas de base existentes Novas linhas de base calculadas executando a etapa Linha de base recém-calculada executando a etapa (valor da propriedade CalculatedBaseline)

Você está iniciando o pipeline para treinar novamente uma nova versão do modelo porque há uma violação detectada pelo Amazon SageMaker Model Monitor em um endpoint para um determinado tipo de verificação e deseja ignorar esse tipo de verificação em relação à linha de base anterior, mas transferir a linha de base anterior como DriftCheckBaselines no registro do modelo para sua nova versão do modelo.

True/ False Sem verificação de oscilação Novas linhas de base calculadas pela execução Linha de base do último modelo aprovado no registro do modelo ou da linha de base fornecida como parâmetro de etapa
Isso acontece nos seguintes casos:
  • Você está iniciando a execução inicial do pipeline, criando sua primeira versão do modelo e gerando as linhas de base iniciais.

  • Você está iniciando o pipeline para retreinar uma nova versão do modelo porque há uma violação detectada pelo Model Monitor no endpoint para um tipo específico de verificação. Se você quiser pular a verificação em relação à linha de base anterior e atualizá-la diretamente DriftCheckBaselines com a linha de base recém-calculada no registro do modelo.

True/ True Sem verificação de oscilação Novas linhas de base calculadas executando a etapa Linha de base recém-calculada executando a etapa (valor da propriedade CalculatedBaseline)
nota

Se você usar notação científica em sua restrição, precisará converter em float. Para obter um exemplo de script de pré-processamento de como fazer isso, consulte Criar uma linha de base de qualidade de modelo.

Ao registrar um modelo com Etapa do modelo, você pode registrar a propriedade BaselineUsedForDriftCheck como DriftCheckBaselines. Esses arquivos de linha de base podem então ser usados pelo Model Monitor para verificações de qualidade de modelos e dados. Além disso, essas linhas de base também podem ser usadas na QualityCheck etapa ClarifyCheckStep e para comparar modelos recém-treinados com os modelos existentes que estão registrados no registro de modelos para futuras execuções do pipeline.

Detecção de deriva em relação às linhas de base anteriores em tubulações SageMaker

No caso da etapa QualityCheck, ao iniciar o pipeline de treinamento regular para obter uma nova versão do modelo, talvez você não queira executar a etapa de treinamento se a qualidade dos dados e o viés de dados tiverem Esquema para violações (arquivo constraint_violations.json) nas linhas de base da versão anterior do modelo aprovada. Talvez você também não queira registrar a versão do modelo recém-treinada se a qualidade do modelo, o viés do modelo ou a explicabilidade do modelo violarem a linha de base registrada da versão anterior aprovada do modelo ao executar a etapa ClarifyCheck. Nesses casos, você pode ativar as verificações desejadas definindo a propriedade skip_check da etapa de verificação correspondente definida como False, resultando na falha das etapas ClarifyCheck e QualityCheck se a violação for detectada em relação às linhas de base anteriores. O processo de pipeline então não prossegue, de forma que o modelo com oscilação da linha de base não seja registrado. As etapas ClarifyCheck e QualityCheck são capazes de obter DriftCheckBaselines a versão mais recente do modelo aprovado de um determinado grupo de pacotes de modelos com a qual comparar. As linhas de base anteriores também podem ser fornecidas diretamente supplied_baseline_constraints (além de supplied_baseline_statistics se for uma etapa QualityCheck) e são sempre priorizadas sobre quaisquer linhas de base extraídas do grupo de pacotes de modelo.

Ciclo de vida e evolução da versão básica e do modelo com Pipelines SageMaker

Ao definir register_new_baseline de suas etapas ClarifyCheck e QualityCheck como False, sua linha de base anterior pode ser acessada por meio do prefixo BaselineUsedForDriftCheck da propriedade da etapa. Em seguida, você pode registrar essas linhas de base como DriftCheckBaselines na nova versão do modelo ao registrar um modelo com Etapa do modelo. Depois de aprovar essa nova versão do modelo no registro do modelo, a DriftCheckBaseline versão deste modelo fica disponível para as etapas ClarifyCheck e QualityCheck e etapas do próximo processo de pipeline. Se você quiser atualizar a linha de base de um determinado tipo de verificação para futuras versões do modelo, defina register_new_baseline para True que as propriedades com prefixo BaselineUsedForDriftCheck se tornem a linha de base recém-calculada. Dessa forma, você pode preservar suas linhas de base preferidas para um modelo treinado no futuro ou atualizá-las para verificações de oscilação quando necessário, gerenciando a evolução da linha de base e o ciclo de vida em todas as iterações de treinamento do modelo.

O diagrama a seguir ilustra uma model-version-centric visão da evolução básica e do ciclo de vida.

Uma model-version-centric visão da evolução básica e do ciclo de vida.