Transcription des flux audio en streaming - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Transcription des flux audio en streaming

Grâce au Amazon Transcribe streaming, vous pouvez produire des transcriptions en temps réel pour votre contenu multimédia. Contrairement aux transcriptions par lots, qui impliquent le téléchargement de fichiers multimédia, le streaming multimédia est diffusé Amazon Transcribe en temps réel. Amazon Transcribe renvoie ensuite une transcription, également en temps réel.

Le streaming peut inclure des médias préenregistrés (films, musique et podcasts) et des médias en temps réel (émissions d’information en direct). Les cas d'utilisation courants du streaming Amazon Transcribe incluent le sous-titrage codé en direct pour les événements sportifs et la surveillance en temps réel du son du centre d'appels.

Le contenu en streaming est diffusé sous la forme d’une série de paquets de données séquentiels, ou « blocs », qu’ Amazon Transcribe transcrit instantanément. Les avantages de l'utilisation du streaming par lots incluent des speech-to-text fonctionnalités en temps réel dans vos applications et des temps de transcription plus rapides. Cependant, cette vitesse accrue peut avoir des limites en termes de précision dans certains cas.

Amazon Transcribe propose les options suivantes pour le streaming :

Pour transcrire du son en streaming dans le AWS Management Console, parlez dans le microphone de votre ordinateur.

Astuce

Pour des exemples de SDK code, reportez-vous au référentiel AWS Samples sur GitHub.

Les formats audio pris en charge pour les transcriptions en streaming sont les suivants :

  • FLAC

  • OPUS-audio encodé dans un conteneur Ogg

  • PCM(uniquement les formats audio Little-Endian 16 bits signés, ce qui n'inclut pas) WAV

Les formats sans perte (FLACouPCM) sont recommandés.

Note

Les transcriptions en streaming ne sont pas prises en charge dans toutes les langues. Reportez-vous à la colonne « Entrée de données » du tableau des langues prises en charge pour plus de détails.

Pour connaître la disponibilité des transcriptions en streaming Amazon Transcribe dans la région, voir : Amazon Transcribe Points de terminaison et quotas.

Bonnes pratiques

Les recommandations suivantes améliorent l’efficacité de la transcription en streaming :

  • Si possible, utilisez du son PCM codé.

  • Assurez-vous que votre diffusion est aussi proche que possible du temps réel.

  • La latence dépend de la taille de vos blocs audio. Si vous êtes en mesure de spécifier la taille des morceaux en fonction de votre type audio (par exemple avecPCM), réglez chaque segment entre 50 ms et 200 ms. Vous pouvez calculer la taille du fragment audio par la formule suivante :

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Utilisez une taille de bloc uniforme.

  • Assurez-vous de spécifier correctement le nombre de canaux audio.

  • Dans le cas d'un PCM signal audio monocanal, chaque échantillon est composé de deux octets. Chaque fragment doit donc être composé d'un nombre pair d'octets.

  • Avec l'PCMaudio à deux canaux, chaque échantillon est composé de quatre octets. Chaque fragment doit donc être un multiple de 4 octets.

  • Lorsque votre flux audio ne contient aucun signal vocal, encodez et envoyez la même quantité de silence. Par exemple, silence for PCM est un flux de zéro octet.

  • Assurez-vous de spécifier le taux d’échantillonnage correct pour votre audio. Si possible, enregistrez à une fréquence d’échantillonnage de 16 000 Hz ; cela constitue le meilleur compromis entre la qualité et le volume de données envoyées sur le réseau. Notez que la plupart des microphones haut de gamme enregistrent à 44 100 Hz ou 48 000 Hz.