Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Intégrations
Amazon Nova 2 Sonic peut être intégré à différents frameworks et plateformes pour créer des applications d'IA conversationnelle. Ces intégrations fournissent des composants prédéfinis et des API simplifiées pour les cas d'utilisation courants.
Agents à mèches
Strands Agents est un SDK simple mais puissant qui adopte une approche basée sur des modèles pour créer et exécuter des agents d'IA. Des simples assistants conversationnels aux flux de travail autonomes complexes, du développement local au déploiement en production, Strands Agents s'adapte à vos besoins.
Pour une documentation complète sur le framework Strands, consultez la documentation officielle de Strands
The Strands BidiAgent fournit une interaction audio et textuelle en temps réel grâce à des connexions de streaming persistantes. Contrairement aux modèles traditionnels de demande-réponse, cet agent entretient des conversations de longue durée en prenant en charge les interruptions, le traitement simultané et les réponses audio continues.
Prérequis :
-
Python 3.8 ou version ultérieure installé
-
Informations d'identification pour les AWS personnes configurées avec accès à Amazon Bedrock
-
Connaissance de base de la syntaxe Python async/await
Exemple de code :
Installation:
Installez les packages requis :
pip install strands-agents strands-agents-tools
Exécutez cet exemple :
import asyncio from strands.experimental.bidi.agent import BidiAgent from strands.experimental.bidi.io.audio import BidiAudioIO from strands.experimental.bidi.io.text import BidiTextIO from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel from strands_tools import calculator async def main(): """Test the BidirectionalAgent API.""" # Audio and Text input/output utility audio_io = BidiAudioIO(audio_config={}) text_io = BidiTextIO() # Nova Sonic model model = BidiNovaSonicModel(region="us-east-1") async with BidiAgent(model=model, tools=[calculator]) as agent: print("New BidiAgent Experience") print("Try asking: 'What is 25 times 8?' or 'Calculate the square root of 144'") await agent.run( inputs=[audio_io.input()], outputs=[audio_io.output(), text_io.output()] ) if __name__ == "__main__": try: asyncio.run(main()) except KeyboardInterrupt: print("\nConversation ended by user") except Exception as e: print(f"Error: {e}") import traceback traceback.print_exc()
from strands.experimental.bidi.agent import BidiAgent from strands.experimental.bidi.io.audio import BidiAudioIO from strands.experimental.bidi.io.text import BidiTextIO from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel from strands_tools import calculator
-
BidiAgent: la principale classe d'agent qui orchestre les conversations bidirectionnelles
-
BidiAudioIO : gère les entrées et sorties audio pour les interactions vocales
-
BidiTextIO : fournit une sortie de texte pour les transcriptions et les réponses
-
BidiNovaSonicModel L'emballage du modèle Nova 2 Sonic
-
Calculateur : un outil prédéfini pour les opérations mathématiques
audio_io = BidiAudioIO(audio_config={}) text_io = BidiTextIO()
L' BidiAudioIO gère l'entrée microphone et la sortie haut-parleur, tandis que l' BidiTextIO affiche les transcriptions de texte et les réponses dans la console.
model = BidiNovaSonicModel(region="us-east-1")
Créez une instance de modèle Nova Sonic. Le paramètre region indique la AWS région dans laquelle le modèle est déployé.
async with BidiAgent(model=model, tools=[calculator]) as agent: await agent.run( inputs=[audio_io.input()], outputs=[audio_io.output(), text_io.output()] )
L'agent est créé avec :
-
Modèle : Le modèle Nova 2 Sonic à utiliser
-
Outils : liste des outils que l'agent peut appeler (comme une calculatrice)
-
Entrées : entrée audio depuis le microphone
-
Sorties : sortie audio vers haut-parleurs et sortie texte vers console
Intégrations du framework
Amazon Nova 2 Sonic peut être intégré à différents frameworks et plateformes pour créer des applications vocales sophistiquées. Les exemples suivants illustrent les modèles d'intégration avec les frameworks les plus courants.
Amazon Bedrock AgentCore fournit un environnement d'exécution géré pour déployer les applications Nova 2 Sonic avec une sécurité et une évolutivité de niveau professionnel. AgentCoresimplifie le déploiement d'applications d'IA vocale en temps réel en gérant l'infrastructure, l'authentification et WebSocket la connectivité.
Caractéristiques principales :
-
Streaming bidirectionnel - Support natif de l'interface de streaming en duplex intégral de Nova Sonic avec traitement des événements en temps réel et communication à faible latence.
-
WebSocket infrastructure : Production-ready WebSocket serveurs avec mise à l'échelle automatique, gestion des connexions et récupération des erreurs.
-
Déploiement de conteneurs - Déployez les applications Nova Sonic sous forme de conteneurs sur une infrastructure gérée avec une mise à l'échelle horizontale et un versionnement indépendant.
-
Sécurité de l'entreprise : Fine-grained authentification via IAM et SigV4, isolation VPC et journalisation complète des audits.
L'architecture montre comment les applications clientes se connectent à AgentCore Runtime via WebSocket l'authentification SigV4. L'environnement conteneurisé inclut votre WebSocket serveur, la logique de l'application et le client Nova Sonic, qui communiquent tous avec Nova Sonic via l'API de diffusion bidirectionnelle.
Avantages :
-
Opérations simplifiées : concentrez-vous sur la logique des applications tout en AgentCore gérant l'infrastructure, le dimensionnement et la fiabilité.
-
Sécurité d'entreprise : fonctionnalités Built-in d'authentification, d'autorisation et de conformité pour les déploiements de production.
-
Rentabilité : payez uniquement pour ce que vous utilisez grâce à la mise à l'échelle automatique et à l'optimisation des ressources.
-
Productivité des développeurs : réduisez les délais de production grâce à une WebSocket infrastructure gérée et au déploiement de conteneurs.
Cas d’utilisation
-
Assistants vocaux du service client avec authentification sécurisée
-
Applications vocales d'entreprise nécessitant une intégration IAM
-
Multi-tenant plateformes vocales avec déploiements isolés
-
Voice-enabled applications nécessitant une conformité et des pistes d'audit
Pour obtenir une documentation détaillée sur le déploiement de Nova Sonic avec AgentCore, consultez la AgentCore documentation Amazon Bedrock
LiveKit est une plateforme open source permettant de créer des applications audio et vidéo en temps réel. L'intégration avec Amazon Nova 2 Sonic permet aux développeurs de créer des interfaces vocales conversationnelles sans gérer de pipelines audio ou de protocoles de signalisation complexes.
Pour des exemples d'implémentation détaillés et des exemples de code, consultez la documentation LiveKit AWS
d'intégration.
Comment cela fonctionne :
-
Couche client : les applications Web, mobiles ou de bureau se connectent à LiveKit l'aide des SDK clients, qui gèrent la capture audio, le streaming WebRTC et la lecture.
-
LiveKit Serveur : agit en tant que centre de communication en temps réel, gérant les connexions WebRTC, acheminant les flux audio et gérant l'état des sessions avec une optimisation à faible latence.
-
LiveKit Agent : Python-based agent qui reçoit le son du serveur, le traite via le plugin Nova Sonic et renvoie les réponses. Comprend des fonctionnalités intégrées telles que la détection de l'activité vocale et la gestion des virages.
-
Amazon Nova 2 Sonic : traite le flux audio via une API de diffusion bidirectionnelle, effectue la reconnaissance vocale, la compréhension du langage naturel et génère des réponses conversationnelles à l'aide de la synthèse vocale.
Pipecat est un framework permettant de créer des applications vocales et d'intelligence artificielle conversationnelle multimodale. Il fournit une architecture modulaire basée sur un pipeline qui orchestre plusieurs composants pour créer des applications vocales intelligentes avec Amazon Nova Sonic et d'autres services. AWS
Pour des exemples d'implémentation détaillés et des exemples de code, consultez la documentation PipeCat AWS
d'intégration.
Caractéristiques principales :
-
Architecture de pipeline : Python-based cadre modulaire pour la composition de composants d'IA vocale, notamment ASR, NLU, TTS, etc.
-
Pipecat flows : cadre de gestion des états pour la création d'une logique conversationnelle complexe et l'exécution d'outils.
-
Built-in Support WebRTC : intégration avec Daily et d'autres fournisseurs WebRTC pour le streaming audio en temps réel.
-
AWS Intégration : support natif pour Amazon Bedrock, Amazon Transcribe et Amazon Polly.
L'architecture inclut :
-
Transport WebRTC Real-time : diffusion audio entre les appareils clients et le serveur d'applications.
-
Détection d'activité vocale (VAD) : Silero VAD avec détection vocale et suppression du bruit configurables.
-
Reconnaissance vocale : Amazon Transcribe pour une conversion parole-texte précise et en temps réel.
-
Compréhension du langage naturel : Amazon Nova Pro sur Bedrock avec inférence optimisée pour la latence.
-
Exécution de l'outil : Pipecat Flows pour l'intégration des API et les appels de service principal.
-
Génération de réponses : Amazon Nova Pro pour des réponses cohérentes et contextuelles.
-
Text-to-speech: Amazon Polly avec voix génératives pour une sortie vocale réaliste.
Déployez vos applications Nova Sonic en AWS utilisant l'infrastructure sous forme de code avec le AWS CDK (Cloud Development Kit). Cette approche fournit des déploiements reproductibles et contrôlés par version avec les meilleures pratiques intégrées.
Options de déploiement
-
Amazon ECS (Elastic Container Service) : orchestration de conteneurs entièrement gérée avec intégration d'Application Load Balancer, auto-scaling et exécution Fargate sans serveur.
-
Amazon EKS (Elastic Kubernetes Services) : Kubernetes gérés pour une orchestration complexe, une mise en réseau avancée, des déploiements multirégionaux et un écosystème d'outils étendu.
-
AWS CDK : AWS CDK vous permet de définir une infrastructure cloud à l'aide de langages de programmation familiers.
Pour un exemple complet et prêt pour la production de déploiement de Nova Sonic avec AWS
CDK, consultez l'exemple de Speech-to-Speech CDK
-
Configuration complète de l'infrastructure CDK avec TypeScript
-
WebSocket implémentation du serveur pour une communication en temps réel
-
Déploiement de conteneurs avec ECS et Fargate
-
Configuration de l'Application Load Balancer à des fins d'assistance WebSocket
-
Configuration du réseau VPC et du groupe de sécurité
-
CloudWatch surveillance et journalisation
-
Bonnes pratiques pour les déploiements en production
Multi-agent l'architecture est un modèle largement utilisé pour concevoir des assistants IA qui gèrent des tâches complexes. Dans un assistant vocal alimenté par Nova 2 Sonic, cette architecture coordonne plusieurs agents spécialisés, où chaque agent fonctionne indépendamment pour permettre un traitement parallèle, une conception modulaire et des solutions évolutives.
Nova Sonic joue le rôle d'orchestrateur dans un système multi-agents, remplissant deux fonctions clés :
Gestion du flux de conversation : garantit que toutes les informations nécessaires sont collectées avant de passer à l'étape suivante de la conversation.
Classification des intentions : analyse les demandes des utilisateurs et les achemine vers le sous-agent spécialisé approprié.
Le schéma ci-dessus montre un assistant vocal bancaire utilisant une architecture multi-agents. Le flux de conversation commence par un message d'accueil et la collecte du nom de l'utilisateur, puis traite les demandes liées aux opérations bancaires ou aux prêts hypothécaires par l'intermédiaire de sous-agents spécialisés.
Exemple de flux de conversation :
-
L'utilisateur se connecte à l'assistant vocal.
-
Nova 2 Sonic : « Bonjour ! Quel est ton nom ? »
-
Utilisateur : « Je m'appelle John »
-
Nova 2 Sonic : « Bonjour John, en quoi puis-je t'aider aujourd'hui ? »
-
Utilisateur : « Je souhaite vérifier le solde de mon compte »
-
Nova 2 Sonic : [Routes vers l'agent d'authentification]
-
Agent d'authentification : « Veuillez fournir votre identifiant de compte »
-
Utilisateur : « 12345"
-
Agent d'authentification : [Vérifie l'identité]
-
Nova 2 Sonic : [Itinéraires vers l'agent bancaire]
-
Agent bancaire : « Votre solde actuel est de 5 431 110$ »
Bien que cet exemple montre des sous-agents utilisant le framework Strands Agents déployé sur Amazon Bedrock AgentCore, l'architecture est flexible. Vous pouvez choisir :
-
Votre framework d'agent préféré
-
Tout fournisseur de LLM
-
Options d'hébergement personnalisées
-
Différents modèles d'orchestration
Avantages :
-
Modularité : chaque agent se concentre sur un domaine spécifique, ce qui facilite la maintenance et la mise à jour du système.
-
Évolutivité : ajoutez de nouveaux agents sans modifier les agents existants, ce qui permet à votre système de s'adapter à vos besoins.
-
Traitement parallèle : plusieurs agents peuvent travailler simultanément, ce qui améliore les temps de réponse aux requêtes complexes.
-
Spécialisation : Chaque agent peut être optimisé pour sa tâche spécifique, en utilisant les outils et les bases de connaissances les plus appropriés.
-
Isolation des défaillances : si un agent tombe en panne, les autres continuent de fonctionner, ce qui améliore la fiabilité globale du système.
Consultez ce blog
Visitez le Nova Sonic Workshop Multi-Agent Lab
Amazon Nova 2 Sonic s'intègre aux fournisseurs de téléphonie pour permettre aux applications AI-powered vocales d'être accessibles via des appels téléphoniques. Ce guide couvre l'intégration avec Twilio, Vonage et d'autres SIP-based systèmes pour créer des solutions de centre d'appels et des agents vocaux.
Twilio : plateforme de communication dans le cloud dotée de capacités de diffusion vocale et multimédia programmables.
Vonage : API de communications mondiales avec voix, streaming WebSocket audio et connectivité SIP.
AWS fournit un exemple complet d'implémentation démontrant Nova Sonic dans un environnement de centre de contact avec analyse en temps réel et intégration de la téléphonie.
Référentiel : Sample Sonic Contact Center avec téléphonie