Resolva erros ao criar um trabalho de avaliação de modelo na Amazon SageMaker - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Resolva erros ao criar um trabalho de avaliação de modelo na Amazon SageMaker

Importante

Para usar o SageMaker Clarify Foundation Model Evaluations (FMEval), você deve fazer o upgrade para a nova experiência do Studio.

Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. FMEvalnão está disponível no Amazon SageMaker Studio Classic.

Para obter informações sobre como fazer o upgrade para a nova experiência do Studio, consulteMigração do Amazon SageMaker Studio Classic. Para obter informações sobre como usar o aplicativo Studio Classic, consulteAmazon SageMaker Studio Clássico.

Se você encontrar um erro ao criar um trabalho de avaliação de modelo, use a lista a seguir para solucionar problemas de sua avaliação. Se precisar de mais ajuda, entre em contato com AWS Supportnossos fóruns de AWS desenvolvedores da Amazon SageMaker.

Erro ao carregar seus dados de um bucket do Amazon S3

Ao criar uma avaliação do modelo básico, você deve definir as permissões corretas para o bucket do S3 no qual deseja armazenar a entrada e a saída do modelo. Se as permissões de compartilhamento de recursos de origem cruzada (CORS) não estiverem definidas corretamente, SageMaker gerará o seguinte erro:

Erro: Falha ao colocar o objeto no s3: Erro ao carregar o objeto no S3Error: Falha ao colocar o objeto no S3: NetworkError ao tentar buscar o recurso.

Para definir as permissões corretas do bucket, siga as instruções em Configurar seu ambiente emCrie um trabalho de avaliação automática de modelos no Studio.

Falha na conclusão do trabalho de processamento

Os motivos mais comuns pelos quais seu trabalho de processamento não foi concluído incluem o seguinte:

Consulte as seções a seguir para ajudá-lo a mitigar cada problema.

Cota insuficiente

Quando você executa uma avaliação do modelo básico para um JumpStart modelo não implantado, o SageMaker Clarify implanta seu modelo de linguagem grande (LLM) em um SageMaker endpoint da sua conta. Se sua conta não tiver cota suficiente para executar o JumpStart modelo selecionado, o trabalho falhará com umClientError. Para aumentar sua cota, siga estas etapas:

Solicite um aumento AWS de Quotas de Serviço
  1. Recupere o nome da instância, a cota atual e a cota necessária na mensagem de erro na tela. Por exemplo, no seguinte erro:

    • O nome da instância éml.g5.12xlarge.

    • A cota atual do número a seguir current utilization é 0 instances

    • A cota adicional exigida do número a seguir request delta é1 instances.

    O exemplo de erro é o seguinte:

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. Faça login AWS Management Console e abra o console Service Quotas.

  3. No painel de navegação, em Gerenciar cotas, insira. Amazon SageMaker

  4. Escolha Exibir cotas.

  5. Na barra de pesquisa, em Cotas de serviço, insira o nome da instância da Etapa 1. Por exemplo, usando as informações contidas na mensagem de erro da Etapa 1, insiraml.g5.12xlarge.

  6. Escolha o nome da cota que aparece ao lado do nome da instância e termina com para uso do endpoint. Por exemplo, usando as informações contidas na mensagem de erro da Etapa 1, escolha ml.g5.12xlarge para uso do endpoint.

  7. Escolha Solicitar aumento no nível da conta.

  8. Em Aumentar valor da cota, insira a cota necessária a partir das informações fornecidas na mensagem de erro da Etapa 1. Insira o total de current utilization request delta e. No exemplo anterior, o erro current utilization é 0 Instances e o request delta é1 Instances. Neste exemplo, solicite uma cota de 1 para fornecer a cota necessária.

  9. Escolha Solicitar.

  10. Escolha Histórico de solicitações de cotas no painel de navegação.

  11. Quando o status mudar de Pendente para Aprovado, execute seu trabalho novamente. Talvez seja necessário atualizar seu navegador para ver a alteração.

Para obter mais informações sobre como solicitar um aumento em sua cota, consulte Solicitando um aumento de cota.

Memória insuficiente

Se você iniciar uma avaliação do modelo básico em uma EC2 instância da Amazon que não tem memória suficiente para executar um algoritmo de avaliação, o trabalho falhará com o seguinte erro:

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

Para aumentar a memória disponível para seu trabalho de avaliação, altere sua instância para uma que tenha mais memória. Se você estiver usando a interface do usuário, poderá escolher um tipo de instância em Configuração do processador na Etapa 2. Se você estiver executando seu trabalho dentro do SageMaker console, inicie um novo espaço usando uma instância com maior capacidade de memória.

Para obter uma lista das EC2 instâncias da Amazon, consulte Tipos de instância.

Para obter mais informações sobre instâncias com maior capacidade de memória, consulte Instâncias otimizadas para memória.

Não passou na verificação de ping

Em alguns casos, seu trabalho de avaliação do modelo básico falhará porque não passou por uma verificação de ping quando SageMaker estava implantando seu endpoint. Se ele não passar no teste de ping, o seguinte erro será exibido:

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

Se seu trabalho gerar esse erro, aguarde alguns minutos e execute seu trabalho novamente. Se o erro persistir, entre em contato com AWS Support ou AWS Developer Forums for Amazon SageMaker.

Você não consegue encontrar avaliações do modelo básico no console SageMaker

Para usar o SageMaker Clarify Foundation Model Evaluations, você deve fazer o upgrade para a nova experiência do Studio. Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. O recurso de avaliação da fundação só pode ser usado na experiência atualizada. Para obter informações sobre como atualizar o Studio, consulteMigração do Amazon SageMaker Studio Classic.

Seu modelo não suporta estereótipos imediatos

Somente alguns JumpStart modelos oferecem suporte à estereotipagem imediata. Se você selecionar um JumpStart modelo que não seja compatível, o seguinte erro será exibido:

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

Se você receber esse erro, não poderá usar o modelo selecionado em uma avaliação da fundação. SageMaker Atualmente, a Clarify está trabalhando para atualizar todos os JumpStart modelos para tarefas imediatas de estereotipagem, para que possam ser usados em uma avaliação de modelo básico.

Erros de validação do conjunto de dados (humano)

O conjunto de dados de prompt personalizado em um trabalho de avaliação de modelo que usa trabalhadores humanos deve ser formatado usando o formato de JSON linhas usando a .jsonl extensão.

Quando você inicia um trabalho, cada JSON objeto no conjunto de dados do prompt é validado de forma interdependente. Se um dos JSON objetos não for válido, você receberá o seguinte erro.

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

Para que um conjunto de dados de prompt personalizado passe por todas as validações, o seguinte deve ser verdadeiro para todos os JSON objetos no arquivo de JSON linhas.

  • Cada linha no arquivo do conjunto de dados do prompt deve ser um JSON objeto válido.

  • Caracteres especiais, como aspas ("), devem ser omitidos corretamente. Por exemplo, se sua solicitação fosse a seguinte, "Claire said to the crowd, "Bananas are the best!"" as aspas precisariam ser escapadas usando um\,"Claire said to the crowd, \"Bananas are the best!\"".

  • Um JSON objeto válido deve conter pelo menos o par prompt chave/valor.

  • Um arquivo de conjunto de dados de prompt não pode conter mais de 1.000 JSON objetos em um único arquivo.

  • Se você especificar a responses chave em qualquer JSON objeto, ela deverá estar presente em todos os JSON objetos.

  • O número máximo de objetos na responses chave é 1. Se você tiver respostas de vários modelos que deseja comparar, cada um exige um BYOI conjunto de dados separado.

  • Se você especificar a responses chave em qualquer JSON objeto, ela também deverá conter as text chaves modelIdentifier e em todos os responses objetos.