As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Inferência assíncrona
O Amazon SageMaker Asynchronous Inference é um recurso SageMaker que enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), tempos de processamento longos (até uma hora) e requisitos de latência quase em tempo real. A inferência assíncrona permite que você economize custos escalando automaticamente a contagem de instâncias para zero quando não há solicitações para processar, então você só paga quando seu endpoint está processando solicitações.
Como funciona
A criação de um endpoint de inferência assíncrona é semelhante à criação de endpoints de inferência em tempo real. Você pode usar seus SageMaker modelos existentes e só precisa especificar o AsyncInferenceConfig
objeto ao criar sua configuração de endpoint com o EndpointConfig
campo na CreateEndpointConfig
API. O diagrama seguinte mostra a arquitetura e o fluxo de trabalho da inferência assíncrona.
Para invocar o endpoint, você precisa colocar a carga da solicitação no Amazon S3. Você também precisa fornecer um ponteiro para essa carga como parte da InvokeEndpointAsync
solicitação. Após a invocação, coloca a solicitação em SageMaker fila para processamento e retorna um identificador e um local de saída como resposta. Após o processamento, SageMaker coloca o resultado no local do Amazon S3. Opcionalmente, você pode escolher receber notificações de sucesso ou erro com o Amazon SNS. Para obter mais informações sobre como configurar notificações assíncronas, consulte Verifique dos resultados da previsão.
nota
A presença de um objeto de configuração de inferência assíncrona (AsyncInferenceConfig
) na configuração de endpoint implica que o endpoint só pode receber invocações assíncronas.
Como faço para começar?
Se você for um usuário iniciante do Amazon SageMaker Asynchronous Inference, recomendamos que você faça o seguinte:
-
Leia Operações assíncronas de endpoint para obter informações sobre como criar, invocar, atualizar e excluir um endpoint assíncrono.
-
Explore o caderno de exemplo de inferência assíncrona
no repositório aws/. amazon-sagemaker-examples GitHub
Observe que, se seu endpoint usar qualquer um dos atributos listados nesta página de Exclusions, você não poderá usar a inferência assíncrona.