Inferência assíncrona

O Amazon SageMaker Asynchronous Inference é um recurso de SageMaker IA que enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), tempos de processamento longos (até uma hora) e requisitos de latência quase em tempo real. A inferência assíncrona permite que você economize custos escalando automaticamente a contagem de instâncias para zero quando não há solicitações para processar, então você só paga quando seu endpoint está processando solicitações.

Como funciona

A criação de um endpoint de inferência assíncrona é semelhante à criação de endpoints de inferência em tempo real. Você pode usar seus modelos de SageMaker IA existentes e só precisa especificar o AsyncInferenceConfig objeto ao criar sua configuração de endpoint com o EndpointConfig campo na CreateEndpointConfig API. O diagrama seguinte mostra a arquitetura e o fluxo de trabalho da inferência assíncrona:

O diagrama de arquitetura da Inferência Assíncrona mostra como um usuário invoca um endpoint.

Para invocar o endpoint, você precisa colocar a carga útil da solicitação no Amazon S3. Você também precisa fornecer um ponteiro para essa carga útil como parte da solicitação InvokeEndpointAsync. Após a invocação, a SageMaker IA enfileira a solicitação para processamento e retorna um identificador e um local de saída como resposta. Após o processamento, a SageMaker IA coloca o resultado no local do Amazon S3. Opcionalmente, você pode escolher receber notificações de sucesso ou erro com o Amazon SNS. Para obter mais informações sobre como configurar notificações assíncronas, consulte Verifique dos resultados da previsão.

nota

A presença de um objeto de configuração de inferência assíncrona (AsyncInferenceConfig) na configuração de endpoint implica que o endpoint só pode receber invocações assíncronas.

Como faço para começar?

Se você for um usuário iniciante do Amazon SageMaker Asynchronous Inference, recomendamos que você faça o seguinte:

Leia Operações assíncronas do endpoint para obter informações sobre como criar, invocar, atualizar e excluir um endpoint assíncrono.
Explore o caderno de exemplos de inferência assíncrona no repositório -sagemaker-examples. aws/amazon GitHub

Observe que, se seu endpoint usar qualquer um dos atributos listados nesta página de Exclusões, você não poderá usar a inferência assíncrona.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solução de problemas

Operações assíncronas do endpoint