Inferência assíncrona - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Inferência assíncrona

O Amazon SageMaker Asynchronous Inference é um recurso SageMaker que enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), tempos de processamento longos (até uma hora) e requisitos de latência quase em tempo real. A inferência assíncrona permite que você economize custos escalando automaticamente a contagem de instâncias para zero quando não há solicitações para processar, então você só paga quando seu endpoint está processando solicitações.

Como funciona

A criação de um endpoint de inferência assíncrona é semelhante à criação de endpoints de inferência em tempo real. Você pode usar seus SageMaker modelos existentes e só precisa especificar o AsyncInferenceConfig objeto ao criar sua configuração de endpoint com o EndpointConfig campo na CreateEndpointConfig API. O diagrama seguinte mostra a arquitetura e o fluxo de trabalho da inferência assíncrona.

Diagrama de arquitetura da inferência assíncrona mostrando como um usuário invoca um endpoint.

Para invocar o endpoint, você precisa colocar a carga da solicitação no Amazon S3. Você também precisa fornecer um ponteiro para essa carga como parte da InvokeEndpointAsync solicitação. Após a invocação, coloca a solicitação em SageMaker fila para processamento e retorna um identificador e um local de saída como resposta. Após o processamento, SageMaker coloca o resultado no local do Amazon S3. Opcionalmente, você pode escolher receber notificações de sucesso ou erro com o Amazon SNS. Para obter mais informações sobre como configurar notificações assíncronas, consulte Verifique dos resultados da previsão.

nota

A presença de um objeto de configuração de inferência assíncrona (AsyncInferenceConfig) na configuração de endpoint implica que o endpoint só pode receber invocações assíncronas.

Como faço para começar?

Se você for um usuário iniciante do Amazon SageMaker Asynchronous Inference, recomendamos que você faça o seguinte:

Observe que, se seu endpoint usar qualquer um dos atributos listados nesta página de Exclusions, você não poderá usar a inferência assíncrona.