Erstellen von Video-Untertitel - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen von Video-Untertitel

Amazon Transcribeunterstützt die WebVTT-Ausgabe (*.vtt) und SubRip (*.srt) zur Verwendung als Videountertitel. Sie können bei der Einrichtung Ihres Batch-Videotranskriptionsauftrags einen oder beide Dateitypen auswählen. Wenn Sie die Untertitelfunktion verwenden, werden Ihre ausgewählten Untertiteldateien und eine reguläre Transkriptdatei (mit zusätzlichen Informationen) erstellt. Untertitel- und Transkriptionsdateien werden an dasselbe Ziel ausgegeben.

Untertitel werden gleichzeitig mit dem Sprechen des Textes angezeigt und bleiben sichtbar, bis eine natürliche Pause eingetreten ist oder der Sprecher das Sprechen beendet. Beachten Sie, dass keine Untertiteldatei erstellt wird, wenn Sie in Ihrer Transkriptionsanfrage Untertitel aktivieren und Ihr Audio keine Sprache enthält.

Wichtig

Amazon Transcribeverwendet einen Standard-Startindex von 0 für die Ausgabe von Untertiteln, der sich vom gebräuchlicheren Wert von 1 unterscheidet. Wenn Sie einen Startindex von benötigen1, können Sie dies in der AWS Management Console oder in Ihrer API-Anfrage mithilfe des OutputStartIndexParameters angeben.

Die Verwendung des falschen Startindexes kann zu Kompatibilitätsfehlern mit anderen Diensten führen. Überprüfen Sie daher, welchen Startindex Sie benötigen, bevor Sie Ihre Untertitel erstellen. Wenn Sie sich nicht sicher sind, welchen Wert Sie verwenden sollen, empfehlen wir Ihnen, sich zu entscheiden1. Weitere Informationen Subtitlesfinden Sie unter.

Funktionen, die mit Untertiteln unterstützt werden:

  • Inhaltsschwärzung — Jeder redigierte Inhalt wird sowohl in Ihren Untertiteln als auch in den regulären Transkript-Ausgabedateien als PII '' wiedergegeben. Das Audio wird nicht verändert.

  • Vokabelfilter — Untertiteldateien werden aus der Transkriptionsdatei generiert, sodass alle Wörter, die Sie in Ihrer Standard-Transkriptionsausgabe filtern, auch in Ihren Untertiteln gefiltert werden. Gefilterter Inhalt wird als Leerzeichen oder *** in Ihren Transkript- und Untertiteldateien angezeigt. Das Audio wird nicht verändert.

  • Sprechertagebücher — Wenn sich in einem bestimmten Untertitelsegment mehrere Sprecher befinden, werden Bindestriche verwendet, um die einzelnen Sprecher zu unterscheiden. Dies gilt sowohl für WebVTT als auch für SubRip Formate; zum Beispiel:

    • -- Von Person 1 gesprochener Text

    • -- Von Person 2 gesprochener Text

Untertiteldateien werden am selben Amazon S3 Ort wie Ihre Transkriptionsausgabe gespeichert.

Eine Videoanleitung zum Erstellen von Untertiteln finden Sie unter:

Generieren von Untertiteldateien

Sie können Untertiteldateien mit den AWS Management ConsoleAWS CLI, oder AWSSDKs erstellen. Sehen Sie sich die folgenden Beispiele an:

  1. Melden Sie sich an der AWS Management Console an.

  2. Wählen Sie im Navigationsbereich Transkriptionsaufträge und dann Job erstellen (oben rechts). Dadurch wird die Seite „Auftragsdetails angeben“ geöffnet. Die Untertiteloptionen befinden sich im Bedienfeld „Ausgabedaten“.

  3. Wählen Sie die gewünschten Formate für Ihre Untertiteldateien aus und wählen Sie dann einen Wert für Ihren Startindex. Beachten Sie, dass die Amazon Transcribe Standardeinstellung 1 ist0, aber häufiger verwendet wird. Wenn Sie sich nicht sicher sind, welchen Wert Sie verwenden sollen, empfehlen wir die Auswahl1, da dies die Kompatibilität mit anderen Diensten verbessern kann.

    Amazon TranscribeBildschirmfoto der Konsole: der Bereich „Ausgabedaten“ auf der Seite „Auftragsdetails angeben“.
  4. Füllen Sie alle anderen Felder aus, die Sie auf der Seite „Auftragsdetails angeben“ hinzufügen möchten, und wählen Sie dann Weiter aus. Dadurch gelangen Sie zur Seite „Job konfigurieren — optional.

  5. Wählen Sie Job erstellen aus, um Ihren Transkriptionsjob auszuführen.

In diesem Beispiel werden der start-transcription-jobBefehl und der Subtitles Parameter verwendet. Weitere Informationen erhalten Sie unter StartTranscriptionJob und Subtitles.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --subtitles Formats=vtt,srt,OutputStartIndex=1

Hier ist ein weiteres Beispiel, in dem der start-transcription-jobBefehl verwendet wird, und ein Anforderungstext, der diesem Job Untertitel hinzufügt.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-subtitle-job.json

Die Datei my-first-subtitle-job.json enthält den folgenden Anfragetext.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Subtitles": { "Formats": [ "vtt","srt" ], "OutputStartIndex": 1 } }

In diesem Beispiel wird das verwendetAWS SDK for Python (Boto3), um Untertitel mithilfe des Subtitles Arguments für die Methode start_transcription_job hinzuzufügen. Weitere Informationen erhalten Sie unter StartTranscriptionJob und Subtitles.

Weitere Beispiele für die Verwendung der AWS SDKs, einschließlich funktionsspezifischer, szenariospezifischer und dienstübergreifender Beispiele, finden Sie in diesem Kapitel. Codebeispiele für Amazon Transcribe mit SDKs AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Subtitles = { 'Formats': [ 'vtt','srt' ], 'OutputStartIndex': 1 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)