Agents à mèches Intégrations du framework

Intégrations

Amazon Nova 2 Sonic peut être intégré à différents frameworks et plateformes pour créer des applications d'IA conversationnelle. Ces intégrations fournissent des composants prédéfinis et des API simplifiées pour les cas d'utilisation courants.

Agents à mèches

Strands Agents est un SDK simple mais puissant qui adopte une approche basée sur des modèles pour créer et exécuter des agents d'IA. Des simples assistants conversationnels aux flux de travail autonomes complexes, du développement local au déploiement en production, Strands Agents s'adapte à vos besoins.

Pour une documentation complète sur le framework Strands, consultez la documentation officielle de Strands.

The Strands BidiAgent fournit une interaction audio et textuelle en temps réel grâce à des connexions de streaming persistantes. Contrairement aux modèles traditionnels de demande-réponse, cet agent entretient des conversations de longue durée en prenant en charge les interruptions, le traitement simultané et les réponses audio continues.

Prérequis :

Python 3.8 ou version ultérieure installé
Informations d'identification pour les AWS personnes configurées avec accès à Amazon Bedrock
Connaissance de base de la syntaxe Python async/await

Exemple de code :

Installation:

Installez les packages requis :


pip install strands-agents strands-agents-tools

Exécutez cet exemple :


import asyncio
from strands.experimental.bidi.agent import BidiAgent
from strands.experimental.bidi.io.audio import BidiAudioIO
from strands.experimental.bidi.io.text import BidiTextIO
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel
from strands_tools import calculator

async def main():
    """Test the BidirectionalAgent API."""
    # Audio and Text input/output utility
    audio_io = BidiAudioIO(audio_config={})
    text_io = BidiTextIO()
    
    # Nova Sonic model
    model = BidiNovaSonicModel(region="us-east-1")
    
    async with BidiAgent(model=model, tools=[calculator]) as agent:
        print("New BidiAgent Experience")
        print("Try asking: 'What is 25 times 8?' or 'Calculate the square root of 144'")
        
        await agent.run(
            inputs=[audio_io.input()],
            outputs=[audio_io.output(), text_io.output()]
        )

if __name__ == "__main__":
    try:
        asyncio.run(main())
    except KeyboardInterrupt:
        print("\nConversation ended by user")
    except Exception as e:
        print(f"Error: {e}")
        import traceback
        traceback.print_exc()


from strands.experimental.bidi.agent import BidiAgent 
from strands.experimental.bidi.io.audio import BidiAudioIO 
from strands.experimental.bidi.io.text import BidiTextIO 
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel 
from strands_tools import calculator

BidiAgent: la principale classe d'agent qui orchestre les conversations bidirectionnelles
BidiAudioIO : gère les entrées et sorties audio pour les interactions vocales
BidiTextIO : fournit une sortie de texte pour les transcriptions et les réponses
BidiNovaSonicModel L'emballage du modèle Nova 2 Sonic
Calculateur : un outil prédéfini pour les opérations mathématiques


audio_io = BidiAudioIO(audio_config={}) 
text_io = BidiTextIO()

L' BidiAudioIO gère l'entrée microphone et la sortie haut-parleur, tandis que l' BidiTextIO affiche les transcriptions de texte et les réponses dans la console.


model = BidiNovaSonicModel(region="us-east-1")

Créez une instance de modèle Nova Sonic. Le paramètre region indique la AWS région dans laquelle le modèle est déployé.


async with BidiAgent(model=model, tools=[calculator]) as agent: 
    await agent.run( 
        inputs=[audio_io.input()],  
        outputs=[audio_io.output(), text_io.output()] 
    )

L'agent est créé avec :

Modèle : Le modèle Nova 2 Sonic à utiliser
Outils : liste des outils que l'agent peut appeler (comme une calculatrice)
Entrées : entrée audio depuis le microphone
Sorties : sortie audio vers haut-parleurs et sortie texte vers console

Intégrations du framework

Amazon Nova 2 Sonic peut être intégré à différents frameworks et plateformes pour créer des applications vocales sophistiquées. Les exemples suivants illustrent les modèles d'intégration avec les frameworks les plus courants.

Amazon Bedrock AgentCore fournit un environnement d'exécution géré pour déployer les applications Nova 2 Sonic avec une sécurité et une évolutivité de niveau professionnel. AgentCoresimplifie le déploiement d'applications d'IA vocale en temps réel en gérant l'infrastructure, l'authentification et WebSocket la connectivité.

AgentCore architecture montrant les applications clientes se connectant via un conteneur WebSocket d'exécution avec Nova Sonic.

Caractéristiques principales :

Streaming bidirectionnel - Support natif de l'interface de streaming en duplex intégral de Nova Sonic avec traitement des événements en temps réel et communication à faible latence.
WebSocket infrastructure : Production-ready WebSocket serveurs avec mise à l'échelle automatique, gestion des connexions et récupération des erreurs.
Déploiement de conteneurs - Déployez les applications Nova Sonic sous forme de conteneurs sur une infrastructure gérée avec une mise à l'échelle horizontale et un versionnement indépendant.
Sécurité de l'entreprise : Fine-grained authentification via IAM et SigV4, isolation VPC et journalisation complète des audits.

L'architecture montre comment les applications clientes se connectent à AgentCore Runtime via WebSocket l'authentification SigV4. L'environnement conteneurisé inclut votre WebSocket serveur, la logique de l'application et le client Nova Sonic, qui communiquent tous avec Nova Sonic via l'API de diffusion bidirectionnelle.

Avantages :

Opérations simplifiées : concentrez-vous sur la logique des applications tout en AgentCore gérant l'infrastructure, le dimensionnement et la fiabilité.
Sécurité d'entreprise : fonctionnalités Built-in d'authentification, d'autorisation et de conformité pour les déploiements de production.
Rentabilité : payez uniquement pour ce que vous utilisez grâce à la mise à l'échelle automatique et à l'optimisation des ressources.
Productivité des développeurs : réduisez les délais de production grâce à une WebSocket infrastructure gérée et au déploiement de conteneurs.

Cas d’utilisation

Assistants vocaux du service client avec authentification sécurisée
Applications vocales d'entreprise nécessitant une intégration IAM
Multi-tenant plateformes vocales avec déploiements isolés
Voice-enabled applications nécessitant une conformité et des pistes d'audit

Pour obtenir une documentation détaillée sur le déploiement de Nova Sonic avec AgentCore, consultez la AgentCore documentation Amazon Bedrock.

LiveKit est une plateforme open source permettant de créer des applications audio et vidéo en temps réel. L'intégration avec Amazon Nova 2 Sonic permet aux développeurs de créer des interfaces vocales conversationnelles sans gérer de pipelines audio ou de protocoles de signalisation complexes.

Pour des exemples d'implémentation détaillés et des exemples de code, consultez la documentation LiveKit AWS d'intégration.

Schéma d'architecture illustrant LiveKit l'intégration avec Amazon Bedrock WebRTC et Nova Sonic.

Comment cela fonctionne :

Couche client : les applications Web, mobiles ou de bureau se connectent à LiveKit l'aide des SDK clients, qui gèrent la capture audio, le streaming WebRTC et la lecture.
LiveKit Serveur : agit en tant que centre de communication en temps réel, gérant les connexions WebRTC, acheminant les flux audio et gérant l'état des sessions avec une optimisation à faible latence.
LiveKit Agent : Python-based agent qui reçoit le son du serveur, le traite via le plugin Nova Sonic et renvoie les réponses. Comprend des fonctionnalités intégrées telles que la détection de l'activité vocale et la gestion des virages.
Amazon Nova 2 Sonic : traite le flux audio via une API de diffusion bidirectionnelle, effectue la reconnaissance vocale, la compréhension du langage naturel et génère des réponses conversationnelles à l'aide de la synthèse vocale.

Pipecat est un framework permettant de créer des applications vocales et d'intelligence artificielle conversationnelle multimodale. Il fournit une architecture modulaire basée sur un pipeline qui orchestre plusieurs composants pour créer des applications vocales intelligentes avec Amazon Nova Sonic et d'autres services. AWS

Pour des exemples d'implémentation détaillés et des exemples de code, consultez la documentation PipeCat AWS d'intégration.

Caractéristiques principales :

Architecture de pipeline : Python-based cadre modulaire pour la composition de composants d'IA vocale, notamment ASR, NLU, TTS, etc.
Pipecat flows : cadre de gestion des états pour la création d'une logique conversationnelle complexe et l'exécution d'outils.
Built-in Support WebRTC : intégration avec Daily et d'autres fournisseurs WebRTC pour le streaming audio en temps réel.
AWS Intégration : support natif pour Amazon Bedrock, Amazon Transcribe et Amazon Polly.

Schéma d'architecture montrant le flux d'entrée vocale via VAD Amazon Transcribe, Pipecat Flows et Amazon Polly vers la Amazon Bedrock sortie vocale via WebRTC.

L'architecture inclut :

Transport WebRTC Real-time : diffusion audio entre les appareils clients et le serveur d'applications.
Détection d'activité vocale (VAD) : Silero VAD avec détection vocale et suppression du bruit configurables.
Reconnaissance vocale : Amazon Transcribe pour une conversion parole-texte précise et en temps réel.
Compréhension du langage naturel : Amazon Nova Pro sur Bedrock avec inférence optimisée pour la latence.
Exécution de l'outil : Pipecat Flows pour l'intégration des API et les appels de service principal.
Génération de réponses : Amazon Nova Pro pour des réponses cohérentes et contextuelles.
Text-to-speech: Amazon Polly avec voix génératives pour une sortie vocale réaliste.

Déployez vos applications Nova Sonic en AWS utilisant l'infrastructure sous forme de code avec le AWS CDK (Cloud Development Kit). Cette approche fournit des déploiements reproductibles et contrôlés par version avec les meilleures pratiques intégrées.

Options de déploiement

Amazon ECS (Elastic Container Service) : orchestration de conteneurs entièrement gérée avec intégration d'Application Load Balancer, auto-scaling et exécution Fargate sans serveur.
Amazon EKS (Elastic Kubernetes Services) : Kubernetes gérés pour une orchestration complexe, une mise en réseau avancée, des déploiements multirégionaux et un écosystème d'outils étendu.
AWS CDK : AWS CDK vous permet de définir une infrastructure cloud à l'aide de langages de programmation familiers.

Pour un exemple complet et prêt pour la production de déploiement de Nova Sonic avec AWS CDK, consultez l'exemple de Speech-to-Speech CDK sur. GitHub Ce modèle illustre :

Schéma d'architecture montrant les utilisateurs se connectant via HTTPS et WebSocket à un site Web statique et à des composants de service de synthèse vocale, avec Amazon Bedrock intégration pour Nova Sonic.

Configuration complète de l'infrastructure CDK avec TypeScript
WebSocket implémentation du serveur pour une communication en temps réel
Déploiement de conteneurs avec ECS et Fargate
Configuration de l'Application Load Balancer à des fins d'assistance WebSocket
Configuration du réseau VPC et du groupe de sécurité
CloudWatch surveillance et journalisation
Bonnes pratiques pour les déploiements en production

Multi-agent l'architecture est un modèle largement utilisé pour concevoir des assistants IA qui gèrent des tâches complexes. Dans un assistant vocal alimenté par Nova 2 Sonic, cette architecture coordonne plusieurs agents spécialisés, où chaque agent fonctionne indépendamment pour permettre un traitement parallèle, une conception modulaire et des solutions évolutives.

Nova Sonic joue le rôle d'orchestrateur dans un système multi-agents, remplissant deux fonctions clés :

Gestion du flux de conversation : garantit que toutes les informations nécessaires sont collectées avant de passer à l'étape suivante de la conversation.

Classification des intentions : analyse les demandes des utilisateurs et les achemine vers le sous-agent spécialisé approprié.

Schéma d'architecture illustrant le flux d'appels de l'utilisateur vers trois agents chargés des services d'authentification, bancaires et hypothécaires en passant par le message d'accueil.

Le schéma ci-dessus montre un assistant vocal bancaire utilisant une architecture multi-agents. Le flux de conversation commence par un message d'accueil et la collecte du nom de l'utilisateur, puis traite les demandes liées aux opérations bancaires ou aux prêts hypothécaires par l'intermédiaire de sous-agents spécialisés.

Exemple de flux de conversation :

L'utilisateur se connecte à l'assistant vocal.
Nova 2 Sonic : « Bonjour ! Quel est ton nom ? »
Utilisateur : « Je m'appelle John »
Nova 2 Sonic : « Bonjour John, en quoi puis-je t'aider aujourd'hui ? »
Utilisateur : « Je souhaite vérifier le solde de mon compte »
Nova 2 Sonic : [Routes vers l'agent d'authentification]
Agent d'authentification : « Veuillez fournir votre identifiant de compte »
Utilisateur : « 12345"
Agent d'authentification : [Vérifie l'identité]
Nova 2 Sonic : [Itinéraires vers l'agent bancaire]
Agent bancaire : « Votre solde actuel est de 5 431 110$ »

Bien que cet exemple montre des sous-agents utilisant le framework Strands Agents déployé sur Amazon Bedrock AgentCore, l'architecture est flexible. Vous pouvez choisir :

Votre framework d'agent préféré
Tout fournisseur de LLM
Options d'hébergement personnalisées
Différents modèles d'orchestration

Avantages :

Modularité : chaque agent se concentre sur un domaine spécifique, ce qui facilite la maintenance et la mise à jour du système.
Évolutivité : ajoutez de nouveaux agents sans modifier les agents existants, ce qui permet à votre système de s'adapter à vos besoins.
Traitement parallèle : plusieurs agents peuvent travailler simultanément, ce qui améliore les temps de réponse aux requêtes complexes.
Spécialisation : Chaque agent peut être optimisé pour sa tâche spécifique, en utilisant les outils et les bases de connaissances les plus appropriés.
Isolation des défaillances : si un agent tombe en panne, les autres continuent de fonctionner, ce qui améliore la fiabilité globale du système.

Consultez ce blog pour plus de détails et des exemples de code.

Visitez le Nova Sonic Workshop Multi-Agent Lab pour des échantillons pratiques.

Amazon Nova 2 Sonic s'intègre aux fournisseurs de téléphonie pour permettre aux applications AI-powered vocales d'être accessibles via des appels téléphoniques. Ce guide couvre l'intégration avec Twilio, Vonage et d'autres SIP-based systèmes pour créer des solutions de centre d'appels et des agents vocaux.

Twilio : plateforme de communication dans le cloud dotée de capacités de diffusion vocale et multimédia programmables.

Vonage : API de communications mondiales avec voix, streaming WebSocket audio et connectivité SIP.

AWS fournit un exemple complet d'implémentation démontrant Nova Sonic dans un environnement de centre de contact avec analyse en temps réel et intégration de la téléphonie.

Référentiel : Sample Sonic Contact Center avec téléphonie

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Appel d'outils asynchrone

Systèmes avancés avec Nova