# Usar o modelo Amazon Nova Sonic de conversão de fala em fala
<a name="speech"></a>

**nota**  
Esta documentação é para o Amazon Nova versão 1. Para ver o guia do Amazon Nova 2 Sonic, acesse [Speech-to-Speech](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html).

O modelo Amazon Nova Sonic fornece interações conversacionais em tempo real por meio de streaming de áudio bidirecional. O Amazon Nova Sonic processa e responde à fala em tempo real à medida que ela ocorre, possibilitando experiências de conversação naturais e semelhantes às humanas.

O Amazon Nova Sonic oferece uma abordagem transformadora para a IA conversacional com sua arquitetura unificada de compreensão e geração de fala. Esse modelo de base de última geração apresenta uma performance de preço líder do setor, permitindo que as empresas criem experiências de voz que permaneçam naturais e contextualmente conscientes. 

Principais recursos e capacidades
+ Compreensão de fala em streaming de última geração com recursos de API de fluxo bidirecional que permitem conversas em tempo real, com baixa latência e em vários turnos.
+ Experiências de IA conversacional naturais e semelhantes às humanas são fornecidas com riqueza contextual em todos os idiomas compatíveis.
+ Resposta de fala adaptativa que ajusta dinamicamente a entrega com base na prosódia da fala de entrada.
+ Tratamento amigável das interrupções do usuário sem perder o contexto da conversa.
+ Fundamentação de conhecimento com dados empresariais usando geração aumentada via recuperação (RAG).
+ Chamada de função e compatibilidade com fluxo de trabalho agêntico para criar aplicações complexas de IA.
+ Robustez para o ruído de fundo para cenários de implantação no mundo real.
+ Suporte multilíngue com vozes e estilos de fala expressivos. Vozes expressivas são oferecidas, incluindo tanto vozes masculinas quando femininas, em cinco idiomas: inglês (EUA, Reino Unido), francês, italiano, alemão e espanhol.
+ Reconhecimento de estilos de fala variados em todos os idiomas compatíveis.

**Topics**
+ [Arquitetura do Amazon Nova Sonic](#speech-architecture)
+ [Usar a API de streaming bidirecional](speech-bidirection.md)
+ [Exemplo de conversão de fala em fala](s2s-example.md)
+ [Exemplos de código para o Amazon Nova Sonic](speech-code-examples.md)
+ [Processamento de eventos de entrada com a API bidirecional](input-events.md)
+ [Processamento de eventos de saída com a API bidirecional](output-events.md)
+ [Vozes disponíveis para o Amazon Nova Sonic](available-voices.md)
+ [Tratamento de erros com o Amazon Nova Sonic](speech-errors.md)
+ [Uso de ferramentas, RAG e fluxos agênticos com o Amazon Nova Sonic](speech-tools.md)

## Arquitetura do Amazon Nova Sonic
<a name="speech-architecture"></a>

O Amazon Nova Sonic implementa uma arquitetura orientada a eventos por meio da API de streaming bidirecional, permitindo experiências de conversação em tempo real. Confira os principais componentes de arquitetura da API:

1. **Streaming bidirecional de eventos**: o Amazon Nova Sonic usa uma conexão bidirecional persistente que permite o streaming simultâneo de eventos em ambas as direções. Diferentemente dos padrões tradicionais de solicitação-resposta, essa abordagem permite o seguinte:
   + Streaming contínuo de áudio do usuário para o modelo
   + Processamento e geração simultâneos de fala
   + Respostas do modelo em tempo real sem esperar por enunciados completos

1. **Fluxo de comunicação orientado por eventos**: toda a interação segue um protocolo baseado em eventos em que
   + O cliente e o modelo trocam eventos JSON estruturados
   + Os eventos controlam o ciclo de vida da sessão, o streaming de áudio, as respostas de texto e as interações com as ferramentas
   + Cada evento tem perfis específicos no fluxo de conversação

A API de streaming bidirecional consiste nestes três componentes principais:

1. **Inicialização da sessão**: o cliente estabelece um streaming bidirecional e envia os eventos de configuração.

1. **Streaming de áudio**: o áudio do usuário é continuamente capturado, codificado e transmitido como eventos para o modelo, que processa continuamente a fala.

1. **Streaming de resposta**: à medida que o áudio chega, o modelo envia simultaneamente respostas de eventos:
   + Transcrições de texto da fala do usuário (ASR)
   + Eventos de uso da ferramenta para chamada de função
   + Resposta de texto do modelo
   + Trechos de áudio para saída falada

O diagrama a seguir fornece uma visão geral de alto nível da API de streaming bidirecional.

![\[Diagrama que explica o sistema de streaming bidirecional do Amazon Nova Sonic.\]](http://docs.aws.amazon.com/pt_br/nova/latest/userguide/images/nova-sonic-sequential.png)