Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Usando o modelo Amazon Nova Sonic Speech-to-Speech

Modo de foco
Usando o modelo Amazon Nova Sonic Speech-to-Speech - Amazon Nova

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O modelo Amazon Nova Sonic fornece interações conversacionais em tempo real por meio de streaming de áudio bidirecional. O Amazon Nova Sonic processa e responde à fala em tempo real à medida que ela ocorre, possibilitando experiências de conversação naturais e semelhantes às humanas.

O Amazon Nova Sonic oferece uma abordagem transformadora para a IA conversacional com sua arquitetura unificada de compreensão e geração de fala. Esse modelo state-of-the-art básico apresenta um desempenho de preço líder do setor, permitindo que as empresas criem experiências de voz que permaneçam naturais e contextualmente conscientes.

Capacidades e recursos principais

  • State-of-the-art streaming de compreensão de fala com recursos de API de transmissão bidirecional que permitem conversas em tempo real e com baixa latência em vários turnos.

  • Experiências de IA conversacional naturais e semelhantes às humanas são fornecidas com riqueza contextual em todos os idiomas suportados.

  • Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.

  • Tratamento elegante das interrupções do usuário sem perder o contexto da conversa.

  • Base de conhecimento com dados corporativos usando Retrieval Augmented Generation (RAG).

  • Chamada de função e suporte de fluxo de trabalho agente para criar aplicativos complexos de IA.

  • Robustez ao ruído de fundo para cenários de implantação no mundo real.

  • Reconhecimento de estilos de fala variados em todos os idiomas compatíveis.

Arquitetura Amazon Nova Sonic

O Amazon Nova Sonic implementa uma arquitetura orientada por eventos por meio da API de streaming bidirecional, permitindo experiências de conversação em tempo real. Aqui estão os principais componentes arquitetônicos da API:

  1. Streaming bidirecional de eventos: o Amazon Nova Sonic usa uma conexão bidirecional persistente que permite a transmissão simultânea de eventos em ambas as direções. Diferentemente dos padrões tradicionais de solicitação-resposta, essa abordagem permite o seguinte:

    • Streaming contínuo de áudio do usuário para o modelo

    • Processamento e geração simultâneos de fala

    • Respostas do modelo em tempo real sem esperar por declarações completas

  2. Fluxo de comunicação orientado por eventos: toda a interação segue um protocolo baseado em eventos em que

    • Eventos JSON estruturados para troca de clientes e modelos

    • Os eventos controlam o ciclo de vida da sessão, o streaming de áudio, as respostas de texto e as interações com ferramentas

    • Cada evento tem funções específicas no fluxo de conversação

A API de fluxo bidirecional consiste nesses três componentes principais:

  1. Inicialização da sessão: o cliente estabelece um fluxo bidirecional e envia os eventos de configuração.

  2. Streaming de áudio: o áudio do usuário é continuamente capturado, codificado e transmitido como eventos para o modelo, que processa continuamente a fala.

  3. Streaming de resposta: à medida que o áudio chega, o modelo envia simultaneamente respostas de eventos:

    • Transcrições de texto da fala do usuário (ASR)

    • Eventos de uso da ferramenta para chamada de função

    • Resposta de texto do modelo

    • Pedaços de áudio para saída falada

O diagrama a seguir fornece uma visão geral de alto nível da API de fluxo bidirecional.

Diagrama que explica o sistema de streaming bidirecional Amazon Nova Sonic.

Nesta página

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.