Sprecherpartitionierung (Diarisierung) - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sprecherpartitionierung (Diarisierung)

Mit der Lautsprecher-Diarisierung können Sie in Ihrer Transkriptionsausgabe zwischen verschiedenen Sprechern unterscheiden. Amazon Transcribe kann zwischen maximal 30 einzelnen Sprechern unterscheiden und kennzeichnet den Text jedes einzelnen Sprechers mit einem eindeutigen Wert (spk_0durchspk_9).

Zusätzlich zu den Standard-Transkriptabschnitten (transcripts und items) enthalten Anfragen mit aktivierter Sprecherpartitionierung einen Abschnitt speaker_labels. Dieser Abschnitt ist nach Sprechern gruppiert und enthält Informationen zu jeder Äußerung, einschließlich Sprecherbezeichnung und Zeitstempel.

"speaker_labels": { "channel_label": "ch_0", "speakers": 2, "segments": [ { "start_time": "4.87", "speaker_label": "spk_0", "end_time": "6.88", "items": [ { "start_time": "4.87", "speaker_label": "spk_0", "end_time": "5.02" }, ... { "start_time": "8.49", "speaker_label": "spk_1", "end_time": "9.24", "items": [ { "start_time": "8.49", "speaker_label": "spk_1", "end_time": "8.88" },

Ein vollständiges Beispieltranskript mit Sprecherpartitionierung (für zwei Sprecher) finden Sie unter Beispiel für die Diarisierungsausgabe (Batch).

Aufteilung der Sprecher in einer Batch-Transkription

Zur Sprecherpartitionierung in einer Batch-Transkription siehe die folgenden Beispiele:

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Auftrag erstellen (oben rechts). Dies öffnet die Seite Auftragsdetails angeben.

    Amazon Transcribe Konsolenseite „Auftragsdetails angeben“. Im Bereich „Auftragseinstellungen“ können Sie einen Namen für Ihren Transkriptionsauftrag angeben, einen Modelltyp auswählen und Ihre Spracheinstellungen festlegen.
  3. Füllen Sie alle Felder aus, die Sie auf der Seite Auftragsdetails angeben möchten, und wählen Sie dann Weiter. Dadurch gelangen Sie zur Seite Auftrag konfigurieren – optional.

    Wählen Sie in den Audioeinstellungen die Option Sprecherpartitionierung (unter der Überschrift „Audioidentifikationstyp“). Sie können optional die Anzahl der Sprecher angeben, die Sie partitionieren möchten, bis zu einem Maximum von 10.

    Amazon Transcribe Konsolenseite „Job konfigurieren“. Im Bereich „Audioeinstellungen“ können Sie „Sprecherpartitionierung“ aktivieren.
  4. Wählen Sie Auftrag erstellen, um Ihren Transkriptionsauftrag auszuführen.

In diesem Beispiel verwenden wir den start-transcription-job. Weitere Informationen finden Sie unter StartTranscriptionJob.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --show-speaker-labels TRUE \ --max-speaker-labels 3

Hier ist ein weiteres Beispiel mit dem start-transcription-jobBefehl und einem Anforderungstext, der die Lautsprecherpartitionierung bei diesem Job ermöglicht.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-transcription-job.json

Die Datei my-first-transcription-job.json enthält den folgenden Anfragetext.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ShowSpeakerLabels": 'TRUE', "MaxSpeakerLabels": 3 }

In diesem Beispiel werden Kanäle mithilfe der AWS SDK for Python (Boto3) Methode start_transcription_job identifiziert. Weitere Informationen finden Sie unter. StartTranscriptionJob

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'ShowSpeakerLabels': True, 'MaxSpeakerLabels': 3 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Partitionierung der Sprecher in einer Streaming-Transkription

Um die Sprecher in einer Streaming-Transkription zu trennen, sehen Sie sich die folgenden Beispiele an:

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich Echtzeit-Streaming aus. Blättern Sie nach unten zu den Audioeinstellungen und erweitern Sie dieses Feld, falls es minimiert ist.

    Amazon Transcribe Konsolen-Screenshot: Die Registerkarte „Audioeinstellungen“ auf der Seite „Echtzeit-Transkription“.
  3. Aktivieren Sie die Sprecherpartitionierung.

    Amazon Transcribe Konsolen-Screenshot: Der erweiterte Tab „Audioeinstellungen“ mit aktivierter Lautsprecherpartitionierung.
  4. Jetzt können Sie Ihren Stream transkribieren. Wählen Sie Streaming starten und beginnen Sie zu sprechen. Um Ihr Diktat zu beenden, wählen Sie Streaming beenden.

In diesem Beispiel wird eine HTTP/2-Anfrage erstellt, die Sprecher in Ihrer Transkriptionsausgabe trennt. Weitere Informationen zur Verwendung von HTTP/2-Streaming mit finden Sie unter. Amazon TranscribeEinen HTTP /2-Stream einrichten Weitere Informationen zu spezifischen Parametern und Headern finden Sie Amazon Transcribe unter. StartStreamTranscription

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-show-speaker-label: true transfer-encoding: chunked

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.

In diesem Beispiel wird eine vorsignierte URL erstellt, die die Sprecher in Ihrer Transkriptionsausgabe trennt. Für eine bessere Lesbarkeit werden Zeilenumbrüche hinzugefügt. Weitere Hinweise zur Verwendung von WebSocket Streams mit Amazon Transcribe finden Sie unterEinen Stream einrichten WebSocket . Weitere Einzelheiten zu den Parametern finden Sie unter StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &specialty=PRIMARYCARE &type=DICTATION &media-encoding=flac &sample-rate=16000 &show-speaker-label=true

Parameterdefinitionen finden Sie in der API-Referenz. Parameter, die allen AWS API-Vorgängen gemeinsam sind, sind im Abschnitt Allgemeine Parameter aufgeführt.