Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Transkription von Mehrkanal-Audio
Wenn Sie eine Audiodatei oder einen Stream mit mehreren Kanälen haben, können Sie die Kanalidentifikation verwenden, um die Sprache von jedem dieser Kanäle zu transkribieren. Amazon Transcribe Medical transkribiert die Sprache von jedem Kanal separat. Es kombiniert die einzelnen Transkriptionen jedes Kanals zu einem einzigen Transkriptionsausgang.
Verwenden Sie die Kanalidentifikation, um die einzelnen Kanäle in Ihrem Audio zu identifizieren und die Sprache von jedem dieser Kanäle zu transkribieren. Aktivieren Sie dies in Situationen wie einem Anrufer- und Agentenszenario. Verwenden Sie diese Option, um in Aufzeichnungen oder Streams von Kontaktzentren, die die Arzneimittelsicherheit überwachen, einen Anrufer von einem Agenten zu unterscheiden.
Sie können die Kanalidentifikation sowohl für die Batchverarbeitung als auch für das Echtzeit-Streaming aktivieren. In der folgenden Liste wird beschrieben, wie Sie es für jede Methode aktivieren.
-
Batch-Transkription —AWS Management Console und
StartMedicalTranscriptionJob
API -
Streaming-Transkription — WebSocket Streaming und
StartMedicalStreamTranscription
API
Transkribieren von Mehrkanal-Audiodateien
Wenn Sie eine Audiodatei transkribieren, gibtAmazon Transcribe Medical eine Liste mit Elementen für jeden Kanal zurück. Ein Element ist ein transkribiertes Wort oder ein Satzzeichen. Jedes Wort hat eine Start- und eine Endzeit. Wenn eine Person auf einem Kanal über eine Person auf einem separaten Kanal spricht, überschneiden sich die Start- und Endzeiten der Elemente für jeden Kanal, während die Personen übereinander sprechen.
Standardmäßig können Sie Audiodateien mit zwei Kanälen transkribieren. Sie können eine Kontingenterhöhung beantragen, wenn Sie Dateien mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Kontingenterhöhung finden Sie unter AWS-ServiceKontingente.
Verwenden Sie die APIAWS Management Console oder die StartMedicalTranscriptionJob
API, um Mehrkanal-Audio in einem Batch-Transkriptionsjob zu transkribieren.
AWS Management ConsoleUm die Kanalidentifikation in Ihrem Batch-Transkriptionsauftrag zu aktivieren, aktivieren Sie die Audioidentifikation und anschließend die Kanalidentifikation. Die Kanalidentifikation ist eine Untergruppe der Audioidentifikation in derAWS Management Console.
-
Melden Sie sich an der AWS Management Console
an. -
Wählen Sie im Navigationsbereich unterAmazon Transcribe Medical die Option Transcription Jobs.
-
Wählen Sie Create job (Auftrag erstellen) aus.
-
Geben Sie auf der Seite „Stellendetails angeben“ Informationen zu Ihrem Transkriptionsjob ein.
-
Wählen Sie Next (Weiter).
-
Aktivieren Sie die Audioidentifikation.
-
Wählen Sie als Audioidentifizierungstyp die Option Kanalidentifikation aus.
-
Wählen Sie Create (Erstellen) aus.
Um eine Mehrkanal-Audiodatei (API) zu transkribieren
-
Geben Sie für die
StartMedicalTranscriptionJob
API Folgendes an.-
Geben Sie für
TranscriptionJobName
einen eindeutigen Namen für Ihren anAWS-Konto. -
Geben Sie für
LanguageCode
den Sprachcode an, der der in der Audiodatei gesprochenen Sprache entspricht. Der gültige Wert lauteten-US
. -
Geben Sie für den
MediaFileUri
Parameter desMedia
Objekts den Namen der Mediendatei an, die Sie transkribieren möchten. -
Stellen Sie für das
Settings
ObjektChannelIdentification
auf eintrue
.
-
Im Folgenden finden Sie ein Beispiel für eine Anfrage mit demAWS SDK for Python (Boto3).
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') job_name = "my-first-transcription-job
" job_name = "my-first-med-transcription-job
" job_uri = "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET
', OutputKey = 'output-files
/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Um eine Mehrkanal-Audiodatei mit einem Batch-Transkriptionsjob zu transkribieren (AWS CLI)
-
Führen Sie folgenden Code aus.
aws transcribe start-medical-transcription-job \ --region
us-west-2
\ --cli-input-json file://example-start-command
.jsonDas Folgende ist der Code von
example-start-command.json
.{ "MedicalTranscriptionJobName": "
my-first-med-transcription-job
", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-audio-file
.flac
" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET
", "OutputKey": "my-output-files
/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }
Der folgende Code zeigt die Transkriptionsausgabe für eine Audiodatei, die eine Konversation auf zwei Kanälen enthält.
{
"jobName": "job id
",
"accountId": "111122223333",
"results": {
"transcripts": [
{
"transcript": "When you try ... It seems to ..."
}
],
"channel_labels": {
"channels": [
{
"channel_label": "ch_0",
"items": [
{
"start_time": "12.282",
"end_time": "12.592",
"alternatives": [
{
"confidence": "1.0000",
"content": "When"
}
],
"type": "pronunciation"
},
{
"start_time": "12.592",
"end_time": "12.692",
"alternatives": [
{
"confidence": "0.8787",
"content": "you"
}
],
"type": "pronunciation"
},
{
"start_time": "12.702",
"end_time": "13.252",
"alternatives": [
{
"confidence": "0.8318",
"content": "try"
}
],
"type": "pronunciation"
},
...
]
},
{
"channel_label": "ch_1",
"items": [
{
"start_time": "12.379",
"end_time": "12.589",
"alternatives": [
{
"confidence": "0.5645",
"content": "It"
}
],
"type": "pronunciation"
},
{
"start_time": "12.599",
"end_time": "12.659",
"alternatives": [
{
"confidence": "0.2907",
"content": "seems"
}
],
"type": "pronunciation"
},
{
"start_time": "12.669",
"end_time": "13.029",
"alternatives": [
{
"confidence": "0.2497",
"content": "to"
}
],
"type": "pronunciation"
},
...
]
}
}
Transkribieren von Mehrkanal-Audiostreams
Mit der StartMedicalStreamTranscription
API können Sie Audio von separaten Kanälen entweder in HTTP/2 oder in WebSocket Streams transkribieren.
Standardmäßig können Sie Streams mit zwei Kanälen transkribieren. Sie können eine Kontingenterhöhung beantragen, wenn Sie Streams mit mehr als zwei Kanälen transkribieren müssen. Informationen zur Beantragung einer Kontingenterhöhung finden Sie unter AWSServicekontingente.
Transkription von Mehrkanal-Audio in einem HTTP/2-Stream
Um Mehrkanal-Audio in einem HTTP/2-Stream zu transkribieren, verwenden Sie die StartMedicalStreamTranscriptionAPI und geben Sie Folgendes an:
-
LanguageCode
— Der Sprachcode des Audios. Der gültige Wert lauteten-US
. -
MediaEncoding
— Die Kodierung des Audios. Gültige Werte sindogg-opus
,flac
undpcm
. -
EnableChannelIdentification
–true
-
NumberOfChannels
— die Anzahl der Kanäle in Ihrem Streaming-Audio.
Weitere Informationen zum Einrichten eines HTTP/2-Streams zur Transkription eines medizinischen Gesprächs finden Sie unterEinen HTTP /2-Stream einrichten.
Transkribieren von Mehrkanal-Audio in einem WebSocket Stream
Verwenden Sie das folgende Format, um Lautsprecher in WebSocket Streams zu partitionieren, um eine vorsignierte URI zu erstellen und eine WebSocket Anfrage zu starten. Geben Sieenable-channel-identification
alstrue
und die Anzahl der Kanäle in Ihrem Stream annumber-of-channels
. Eine vorsignierte URI enthält die Informationen, die für die Einrichtung der bidirektionalen Kommunikation zwischen Ihrer Anwendung undAmazon Transcribe Medical erforderlich sind.
GET wss://transcribestreaming.
us-west-2
.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode
&X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE
%2F20220208
%2Fus-west-2
%2Ftranscribe
%2Faws4_request &X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=Signature Version 4 signature
&X-Amz-SignedHeaders=host &media-encoding=flac
&sample-rate=16000
&session-id=sessionId
&enable-channel-identification=true &number-of-channels=2
Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allenAWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.
Weitere Informationen zu WebSocket Anfragen finden Sie unterEinen Stream einrichten WebSocket .
Mehrkanal-Streaming-Ausgang
Die Ausgabe einer Streaming-Transkription ist für HTTP/2 und WebSocket Anfragen dieselbe. Im Folgenden finden Sie eine Beispielausgabe.
{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }
Für jedes Sprachsegment gibt es einechannelId
Flagge, die angibt, zu welchem Kanal die Sprache gehört.