Entrée et sortie des données - Amazon Transcribe

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entrée et sortie des données

Amazon Transcribe prend des données audio, sous forme de fichier multimédia dans un Amazon S3 bucket ou un flux multimédia, et les convertit en données texte.

Si vous transcrivez des fichiers multimédia stockés dans un Amazon S3 bucket, vous effectuez des transcriptions par lots. Si vous transcrivez des flux multimédia, vous effectuez des transcriptions en streaming. Ces deux processus ont des règles et des exigences différentes.

Avec des transcriptions par lots, vous pouvez utiliser la Mise en file d'attente des offres d'emploi si vous n’avez pas besoin de traiter toutes vos tâches de transcription simultanément. Cela permet Amazon Transcribe de suivre vos tâches de transcription et de les traiter lorsque des créneaux sont disponibles.

Note

Amazon Transcribe peut stocker temporairement votre contenu afin d'améliorer continuellement la qualité de ses modèles d'analyse. Consultez le Amazon Transcribe FAQpour en savoir plus. Pour demander la suppression d'un contenu qui aurait pu être stocké par Amazon Transcribe, ouvrez un dossier auprès de AWS Support.

Formats des médias

Les types de média pris en charge diffèrent entre les transcriptions par lots et les transcriptions en streaming, bien que les formats sans perte soient recommandés pour les deux. Consultez le tableau suivant pour plus d’informations :

Par lots

Streaming

Formats pris en charge

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCMencodage

Formats recommandés

  • FLAC

  • WAVavec PCM encodage 16 bits

  • FLAC

  • PCMaudio Little-Endian 16 bits signé (notez que cela n'inclut pas) WAV

Pour de meilleurs résultats, utilisez un format sans perte, tel que FLAC ou WAV avec un codage PCM 16 bits.

Note

Les transcriptions en streaming ne sont pas prises en charge dans toutes les langues. Reportez-vous à la colonne « Entrée de données » du tableau des langues prises en charge pour plus de détails.

Canaux audio

Amazon Transcribe prend en charge les supports monocanaux et bicanaux. Les médias comportant plus de deux canaux ne sont actuellement pas pris en charge.

Si votre fichier audio contient plusieurs locuteurs sur un canal et que vous souhaitez partitionner et étiqueter chaque locuteur dans votre sortie de transcription, vous pouvez utiliser le partitionnement de locuteurs (diarisation).

Si votre audio contient de la parole sur deux canaux distincts, vous pouvez utiliser l’identification des canaux pour transcrire chaque canal séparément dans votre transcription.

Ces deux options produisent un seul fichier de transcription.

Note

Si vous n’activez pas le partitionnement des locuteurs ou l’identification des canaux, le texte de votre transcription est fourni sous la forme d’une section continue.

Fréquences d’échantillonnage

Dans le cas des tâches de transcription par lots, vous pouvez choisir de fournir une fréquence d’échantillonnage, bien que ce paramètre soit facultatif. Si vous l’incluez dans votre demande, assurez-vous que la valeur que vous fournissez correspond à la fréquence d’échantillonnage réelle de votre audio. Si vous fournissez une fréquence d’échantillonnage qui ne correspond pas à votre audio, votre tâche risque d’échouer.

Pour les transcriptions en streaming, vous devez inclure une fréquence d’échantillonnage dans votre demande. Comme pour les tâches de transcription par lots, assurez-vous que la valeur que vous fournissez correspond à la fréquence d’échantillonnage réelle de votre audio.

Les fréquences d’échantillonnage pour le son basse fidélité, tel que les enregistrements téléphoniques, utilisent généralement 8 000 Hz. Pour un son haute fidélité, Amazon Transcribe prend en charge des valeurs comprises entre 16 000 Hz et 48 000 Hz.

Sortie

La sortie de transcription est au JSON format. La première partie de votre transcription contient la transcription elle-même sous forme de paragraphe, suivie de données supplémentaires pour chaque mot et chaque signe de ponctuation. Les données fournies dépendent des fonctionnalités que vous incluez dans votre demande. Votre transcription contient au minimum l’heure de début, l’heure de fin et le score de confiance pour chaque mot. La section suivante montre un exemple de sortie d’une demande de transcription de base qui n’incluait aucune option ou fonctionnalité supplémentaire.

Toutes les transcriptions par lots sont stockées dans des Amazon S3 compartiments. Vous pouvez choisir d'enregistrer votre transcription dans votre propre Amazon S3 compartiment ou d' Amazon Transcribe utiliser un compartiment sécurisé par défaut. Pour en savoir plus sur la création et l’utilisation de compartiments Amazon S3 , consultez la section Utilisation des compartiments.

Si vous souhaitez que votre transcription soit stockée dans un Amazon S3 compartiment dont vous êtes le propriétaire, spécifiez-le URI dans votre demande de transcription. Assurez-vous de donner des autorisations Amazon Transcribe d'écriture pour ce bucket avant de commencer votre travail de transcription par lots. Si vous spécifiez votre propre compartiment, votre transcription reste dans ce compartiment jusqu’à ce que vous le supprimiez.

Si vous ne spécifiez pas de Amazon S3 compartiment, utilisez Amazon Transcribe un compartiment géré par un service sécurisé et vous fournissez un compartiment temporaire URI que vous pouvez utiliser pour télécharger votre transcription. Notez que URIs les temporaires sont valides pendant 15 minutes. Si vous recevez un AccessDenied message d'erreur lors de l'utilisation du URI formulaire fourni, faites une GetTranscriptionJob demande pour obtenir un nouveau document temporaire URI pour votre relevé de notes.

Si vous optez pour un compartiment par défaut, votre transcription est supprimée à l’expiration de votre tâche (90 jours). Si vous souhaitez conserver votre transcription au-delà de cette date d’expiration, vous devez la télécharger.

Les transcriptions en streaming sont renvoyées selon la même méthode que celle que vous utilisez pour votre flux.

Astuce

Si vous souhaitez convertir votre JSON sortie en turn-by-turn transcription au format Word, consultez cet GitHub exemple (pour Python3). Ce script fonctionne avec les transcriptions d’analyse après-appel et les transcriptions par lots standard avec la diarisation activée.

Exemple de sortie

Les transcriptions fournissent une transcription complète sous forme de paragraphe, suivie d'une word-for-word ventilation, qui fournit des données pour chaque mot et chaque signe de ponctuation. Cela inclut l’heure de début, l’heure de fin, un score de confiance et un type (pronunciation ou punctuation).

L’exemple suivant provient d’une tâche de transcription par lots simple qui n’incluait aucune fonctionnalité supplémentaire. Avec chaque fonctionnalité supplémentaire que vous appliquez à votre demande de transcription, vous obtenez des données supplémentaires dans votre fichier de sortie de transcription.

Les transcriptions par lots de base contiennent deux sections principales :

  1. transcripts : contient la transcription complète dans un bloc de texte.

  2. items : contient des informations sur chaque mot et chaque signe de ponctuation de la section transcripts.

  3. audio_segments: Un segment audio est une partie spécifique d'un enregistrement audio qui contient une langue parlée ininterrompue, avec un minimum de pauses ou de pauses. Ce segment capture un flux vocal naturel et est capturé audio_segments avec une heure de début et une heure de fin. L'itemsélément d'un segment audio est une séquence d'identifiants correspondant à chaque élément du segment.

Chaque fonctionnalité supplémentaire que vous incluez dans votre demande de transcription produit des informations supplémentaires dans votre transcription.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }