Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Transcription audio multicanal
Si vous avez un fichier audio ou un flux comportant plusieurs canaux, vous pouvez utiliser l'identification des canaux pour transcrire le discours de chacun de ces canaux. Amazon Transcribe Medical transcrit le discours de chaque canal séparément. Il combine les transcriptions distinctes de chaque canal en une seule sortie de transcription.
Utilisez l’identification des canaux pour identifier les différents canaux de votre audio et transcrire le discours de chacun de ces canaux. Activez cette option dans des situations telles qu’un scénario d’appelant et d’agent. Utilisez-la pour distinguer un appelant d’un agent dans des enregistrements ou des flux des centres d’appels chargés de la surveillance de la sécurité des médicaments.
Vous pouvez activer l’identification des canaux pour le traitement par lots et le streaming en temps réel. La liste suivante décrit comment l’activer pour chaque méthode.
-
Transcription par lots — AWS Management Console et
StartMedicalTranscriptionJob
API -
Transcription en streaming — WebSocket streaming et
StartMedicalStreamTranscription
API
Transcription de fichiers audio multicanal
Lorsque vous transcrivez un fichier audio, Amazon Transcribe Medical renvoie une liste d'éléments pour chaque canal. Un élément est un mot transcrit ou un signe de ponctuation. Chaque mot possède une heure de début et une heure de fin. Si une personne parle sur un canal en même temps qu’une autre personne sur un autre canal, les horodatages des éléments de chaque canal se chevauchent pendant que les personnes parlent l’une et l’autre.
Par défaut, vous pouvez transcrire des fichiers audio sur deux canaux. Vous pouvez demander une augmentation du quota si vous devez transcrire des fichiers comportant plus de deux canaux. Pour plus d’informations sur la demande d’augmentation de quota, consultez la section Quotas Service AWS.
Pour transcrire du son multicanal dans le cadre d'une tâche de transcription par lots, utilisez l' AWS Management Console StartMedicalTranscriptionJob
API ou.
AWS Management Console Pour activer l'identification des canaux dans votre tâche de transcription par lots, vous devez activer l'identification audio, puis l'identification des canaux. L'identification des canaux est un sous-ensemble de l'identification audio dans le AWS Management Console.
-
Connectez-vous à la AWS Management Console
. -
Dans le volet de navigation, sous Amazon Transcribe Medical, sélectionnez Transcription jobs.
-
Choisissez Créer une tâche.
-
Sur la page Spécifier les détails de la tâche, fournissez des informations sur votre tâche de transcription.
-
Choisissez Suivant.
-
Activez Identification audio.
-
Pour Type d’identification audio, choisissez Identification des canaux.
-
Sélectionnez Create (Créer).
Pour transcrire un fichier audio multicanal (API)
-
Pour l’API
StartMedicalTranscriptionJob
, spécifiez ce qui suit.-
Pour
TranscriptionJobName
, spécifiez un nom unique dans votre Compte AWS. -
Pour
LanguageCode
, spécifiez le code de langue correspondant à la langue parlée dans le fichier audio. La valeur valide esten-US
. -
Pour le paramètre
MediaFileUri
de l’objetMedia
, spécifiez le nom du fichier multimédia que vous souhaitez transcrire. -
Pour l’objet
Settings
, définissezChannelIdentification
surtrue
.
-
Voici un exemple de demande utilisant le AWS SDK for Python (Boto3).
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') job_name = "my-first-transcription-job
" job_name = "my-first-med-transcription-job
" job_uri = "s3://amzn-s3-demo-bucket
/my-input-files
/my-media-file
.flac
" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket
', OutputKey = 'output-files
/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Pour transcrire un fichier audio multicanal à l’aide d’une tâche de transcription par lots (AWS CLI)
-
Exécutez le code suivant.
aws transcribe start-medical-transcription-job \ --region
us-west-2
\ --cli-input-json file://example-start-command
.jsonLe code suivant provient du fichier
example-start-command.json
.{ "MedicalTranscriptionJobName": "
my-first-med-transcription-job
", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket
/my-input-files
/my-audio-file
.flac
" }, "OutputBucketName": "amzn-s3-demo-bucket
", "OutputKey": "my-output-files
/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }
Le code suivant montre la sortie de transcription d’un fichier audio contenant une conversation sur deux canaux.
{
"jobName": "job id
",
"accountId": "111122223333",
"results": {
"transcripts": [
{
"transcript": "When you try ... It seems to ..."
}
],
"channel_labels": {
"channels": [
{
"channel_label": "ch_0",
"items": [
{
"start_time": "12.282",
"end_time": "12.592",
"alternatives": [
{
"confidence": "1.0000",
"content": "When"
}
],
"type": "pronunciation"
},
{
"start_time": "12.592",
"end_time": "12.692",
"alternatives": [
{
"confidence": "0.8787",
"content": "you"
}
],
"type": "pronunciation"
},
{
"start_time": "12.702",
"end_time": "13.252",
"alternatives": [
{
"confidence": "0.8318",
"content": "try"
}
],
"type": "pronunciation"
},
...
]
},
{
"channel_label": "ch_1",
"items": [
{
"start_time": "12.379",
"end_time": "12.589",
"alternatives": [
{
"confidence": "0.5645",
"content": "It"
}
],
"type": "pronunciation"
},
{
"start_time": "12.599",
"end_time": "12.659",
"alternatives": [
{
"confidence": "0.2907",
"content": "seems"
}
],
"type": "pronunciation"
},
{
"start_time": "12.669",
"end_time": "13.029",
"alternatives": [
{
"confidence": "0.2497",
"content": "to"
}
],
"type": "pronunciation"
},
...
]
}
}
Transcription de flux audio multicanal
Vous pouvez transcrire le son provenant de canaux distincts en HTTP/2 ou en WebSocket flux à l'aide de l'StartMedicalStreamTranscription
API.
Par défaut, vous pouvez transcrire des flux sur deux canaux. Vous pouvez demander une augmentation du quota si vous devez transcrire des flux comportant plus de deux canaux. Pour plus d’informations sur la demande d’une augmentation de quota, consultez la section Service Quotas AWS.
Transcription de fichiers audio multicanal dans un flux HTTP/2
Pour transcrire du son multicanal dans un flux HTTP/2, utilisez l'StartMedicalStreamTranscriptionAPI et spécifiez les éléments suivants :
-
LanguageCode
– Code de langue de l’élément audio. La valeur valide esten-US
. -
MediaEncoding
– Encodage de l’audio. Les valeurs valides sontogg-opus
,flac
etpcm
. -
EnableChannelIdentification
–true
-
NumberOfChannels
– Nombre de canaux dans votre audio en streaming.
Pour plus d’informations sur la configuration d’un flux HTTP/2 pour transcrire une conversation médicale, consultez la section Configuration d’un flux HTTP/2.
Transcrire du son multicanal dans un flux WebSocket
Pour partitionner les haut-parleurs en WebSocket flux, utilisez le format suivant pour créer une URI pré-signée et lancer une WebSocket demande. Spécifiez enable-channel-identification
avec la valeur true
et le nombre de canaux dans votre flux dans number-of-channels
. Un URI pré-signé contient les informations nécessaires pour configurer une communication bidirectionnelle entre votre application et Amazon Transcribe Medical.
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true &number-of-channels=2
Les définitions des paramètres se trouvent dans la référence d'API ; les paramètres communs à toutes les opérations d' AWS API sont répertoriés dans la section Paramètres communs.
Pour plus d'informations sur WebSocket les demandes, consultezConfiguration d'un WebSocket stream.
Sortie de transcription en streaming multicanal
Le résultat d'une transcription en streaming est le même pour le HTTP/2 et les WebSocket requêtes. Voici un exemple de sortie.
{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }
Pour chaque segment de discours, une balise channelId
indique à quel canal appartient le discours.