As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Cálculo básico, detecção de desvios, ciclo de vida e ClarifyCheck etapas QualityCheck no Amazon Pipelines SageMaker
O tópico a seguir discute como as linhas de base e as versões do modelo evoluem no Amazon SageMaker Pipelines ao usar as etapas e. ClarifyCheck QualityCheck
Para a etapa ClarifyCheck
, uma linha de base é um único arquivo que reside nas propriedades da etapa com o sufixo constraints
. Para a etapa QualityCheck
, uma linha de base é uma combinação de dois arquivos que residem nas propriedades da etapa: um com o sufixo statistics
e outro com o sufixo constraints
. Nos tópicos a seguir, discutimos essas propriedades com um prefixo que descreve como elas são usadas, afetando o comportamento básico e o ciclo de vida nessas duas etapas do pipeline. Por exemplo, a etapa ClarifyCheck
sempre calcula e atribui as novas linhas de base na propriedade CalculatedBaselineConstraints
e a etapa QualityCheck
faz o mesmo nas propriedades CalculatedBaselineConstraints
e CalculatedBaselineStatistics
.
Cálculo e registro da linha de base ClarifyCheck e etapas QualityCheck
As etapas ClarifyCheck
e QualityCheck
sempre calculam novas linhas de base com base nas entradas da etapa por meio da execução do trabalho de processamento subjacente. Essas linhas de base recém-calculadas são acessadas por meio das propriedades com o prefixo CalculatedBaseline
. Você pode registrar essas propriedades como as ModelMetrics
do seu pacote de modelo no Etapa do modelo. Este pacote de modelo pode ser registrado com 5 linhas de base diferentes. Você pode registrá-lo com um para cada tipo de verificação: viés de dados, viés do modelo e explicabilidade do modelo a partir da execução da etapa ClarifyCheck
e da qualidade do modelo, e qualidade dos dados da execução da etapa QualityCheck
. O parâmetro register_new_baseline
determina o valor definido nas propriedades com o prefixo BaselineUsedForDriftCheck
após a execução de uma etapa.
A tabela a seguir de possíveis casos de uso mostra comportamentos diferentes resultantes dos parâmetros da etapa que você pode definir para as etapas ClarifyCheck
e QualityCheck
:
Possível caso de uso que você pode considerar para selecionar essa configuração | skip_check / register_new_baseline |
O Step faz uma verificação de oscilação? | Valor da propriedade da etapa CalculatedBaseline |
Valor da propriedade da etapa BaselineUsedForDriftCheck |
---|---|---|---|---|
Você está fazendo um novo treinamento regular com as verificações habilitadas para obter uma nova versão do modelo, mas deseja transferir as linhas de base anteriores conforme estão |
False / False |
A verificação de deriva é executada em relação às linhas de base existentes | Novas linhas de base calculadas executando a etapa | Linha de base do último modelo aprovado no Model Registry ou a linha de base fornecida como parâmetro de etapa |
Você está fazendo um novo treinamento regular com as verificações habilitadas para obter uma nova versão do modelo, mas deseja atualizá-las |
False / True |
A verificação de deriva é executada em relação às linhas de base existentes | Novas linhas de base calculadas executando a etapa | Linha de base recém-calculada executando a etapa (valor da propriedade CalculatedBaseline ) |
Você está iniciando o pipeline para treinar novamente uma nova versão do modelo porque há uma violação detectada pelo Amazon SageMaker Model Monitor em um endpoint para um determinado tipo de verificação e deseja ignorar esse tipo de verificação em relação à linha de base anterior, mas transferir a linha de base anterior como |
True / False |
Sem verificação de oscilação | Novas linhas de base calculadas pela execução | Linha de base do último modelo aprovado no registro do modelo ou da linha de base fornecida como parâmetro de etapa |
Isso acontece nos seguintes casos:
|
True / True |
Sem verificação de oscilação | Novas linhas de base calculadas executando a etapa | Linha de base recém-calculada executando a etapa (valor da propriedade CalculatedBaseline ) |
nota
Se você usar notação científica em sua restrição, precisará converter em float. Para obter um exemplo de script de pré-processamento de como fazer isso, consulte Criar uma linha de base de qualidade de modelo.
Ao registrar um modelo com Etapa do modelo, você pode registrar a propriedade BaselineUsedForDriftCheck
como DriftCheckBaselines
. Esses arquivos de linha de base podem então ser usados pelo Model Monitor para verificações de qualidade de modelos e dados. Além disso, essas linhas de base também podem ser usadas na QualityCheck
etapa ClarifyCheckStep e para comparar modelos recém-treinados com os modelos existentes que estão registrados no registro de modelos para futuras execuções do pipeline.
Detecção de deriva em relação às linhas de base anteriores em tubulações
No caso da etapa QualityCheck
, ao iniciar o pipeline de treinamento regular para obter uma nova versão do modelo, talvez você não queira executar a etapa de treinamento se a qualidade dos dados e o viés de dados tiverem Esquema para violações (arquivo constraint_violations.json) nas linhas de base da versão anterior do modelo aprovada. Talvez você também não queira registrar a versão do modelo recém-treinada se a qualidade do modelo, o viés do modelo ou a explicabilidade do modelo violarem a linha de base registrada da versão anterior aprovada do modelo ao executar a etapa ClarifyCheck
. Nesses casos, você pode ativar as verificações desejadas definindo a propriedade skip_check
da etapa de verificação correspondente definida como False
, resultando na falha das etapas ClarifyCheck
e QualityCheck
se a violação for detectada em relação às linhas de base anteriores. O processo de pipeline então não prossegue, de forma que o modelo com oscilação da linha de base não seja registrado. As etapas ClarifyCheck
e QualityCheck
são capazes de obter DriftCheckBaselines
a versão mais recente do modelo aprovado de um determinado grupo de pacotes de modelos com a qual comparar. As linhas de base anteriores também podem ser fornecidas diretamente supplied_baseline_constraints
(além de supplied_baseline_statistics
se for uma etapa QualityCheck
) e são sempre priorizadas sobre quaisquer linhas de base extraídas do grupo de pacotes de modelo.
Ciclo de vida e evolução da versão básica e do modelo com Pipelines
Ao definir register_new_baseline
de suas etapas ClarifyCheck
e QualityCheck
como False
, sua linha de base anterior pode ser acessada por meio do prefixo BaselineUsedForDriftCheck
da propriedade da etapa. Em seguida, você pode registrar essas linhas de base como DriftCheckBaselines
na nova versão do modelo ao registrar um modelo com Etapa do modelo. Depois de aprovar essa nova versão do modelo no registro do modelo, a DriftCheckBaseline
versão deste modelo fica disponível para as etapas ClarifyCheck
e QualityCheck
e etapas do próximo processo de pipeline. Se você quiser atualizar a linha de base de um determinado tipo de verificação para futuras versões do modelo, defina register_new_baseline
para True
que as propriedades com prefixo BaselineUsedForDriftCheck
se tornem a linha de base recém-calculada. Dessa forma, você pode preservar suas linhas de base preferidas para um modelo treinado no futuro ou atualizá-las para verificações de oscilação quando necessário, gerenciando a evolução da linha de base e o ciclo de vida em todas as iterações de treinamento do modelo.
O diagrama a seguir ilustra uma model-version-centric visão da evolução básica e do ciclo de vida.