Transkribieren gestreamter Audiodaten - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Transkribieren gestreamter Audiodaten

Mithilfe von Amazon Transcribe Streaming können Sie in Echtzeit Transkriptionen für Ihre Medieninhalte erstellen. Im Gegensatz zu Batch-Transkriptionen, bei denen Mediendateien hochgeladen werden, werden Streaming-Medien in Echtzeit übertragen. Amazon Transcribe Amazon Transcribe gibt dann ein Transkript zurück, ebenfalls in Echtzeit.

Streaming kann sowohl aufgezeichnete Medien (Filme, Musik und Podcasts) als auch Echtzeitmedien (Live-Nachrichtensendungen) umfassen. Zu den häufigsten Streaming-Anwendungsfällen Amazon Transcribe gehören Live-Untertitel für Sportveranstaltungen und die Echtzeitüberwachung von Callcenter-Audio.

Streaming-Inhalte werden in Form von aufeinanderfolgenden Datenpaketen oder „Chunks“ geliefert, die Amazon Transcribe sofort transkribiert. Zu den Vorteilen der Verwendung von Streaming gegenüber Batch gehören speech-to-text Echtzeitfunktionen in Ihren Anwendungen und schnellere Transkriptionszeiten. Diese höhere Geschwindigkeit kann jedoch in einigen Fällen zu Einschränkungen bei der Genauigkeit führen.

Amazon Transcribe bietet die folgenden Optionen für das Streaming:

Um Streaming-Audio in der zu transkribieren AWS Management Console, sprechen Sie in Ihr Computermikrofon.

Tipp

SDK-Codebeispiele finden Sie im AWS Samples-Repository unter. GitHub

Folgende Audioformate werden für Streaming-Transkriptionen unterstützt:

  • FLAC

  • OPUS-kodiertes Audio in einem Ogg-Container

  • PCM (nur signierte 16-Bit Little-Endian-Audioformate, die WAV nicht enthalten)

Verlustfreie Formate (FLAC oder PCM) werden empfohlen.

Anmerkung

Streaming-Transkriptionen werden nicht in allen Sprachen unterstützt. Einzelheiten finden Sie in der Spalte „Dateneingabe“ in der Tabelle „Unterstützte Sprachen“.

Informationen zur Amazon Transcribe regionalen Verfügbarkeit für Streaming-Transkriptionen finden Sie unter: Amazon Transcribe Endpunkte und Kontingente.

Bewährte Methoden

Die folgenden Empfehlungen verbessern die Effizienz der Streaming-Transkription:

  • Verwenden Sie nach Möglichkeit PCM-kodiertes Audio.

  • Stellen Sie sicher, dass Ihr Stream so nah wie möglich an Echtzeit ist.

  • Die Latenzzeit hängt von der Größe der Audio-Blöcke ab. Wenn Sie bei Ihrem Audiotyp (z. B. PCM) die Möglichkeit haben, die Chunk-Größe anzugeben, stellen Sie jeden Chunk auf einen Wert zwischen 50 ms und 200 ms ein. Sie können die Größe des Audio-Chunks mit der folgenden Formel berechnen:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Verwenden Sie eine einheitliche Chunk-Größe.

  • Stellen Sie sicher, dass Sie die Anzahl der Audiokanäle korrekt angeben.

  • Bei einkanaligem PCM-Audio besteht jedes Sample aus zwei Bytes, sodass jeder Chunk aus einer geraden Anzahl von Bytes bestehen sollte.

  • Bei Zweikanal-PCM-Audio besteht jedes Sample aus vier Bytes, sodass jeder Chunk ein Vielfaches von 4 Bytes sein sollte.

  • Wenn Ihr Audiostream keine Sprache enthält, kodieren und senden Sie die gleiche Menge an Stille. So ist beispielsweise Stille bei PCM ein Stream von null Bytes.

  • Vergewissern Sie sich, dass Sie die richtige Abtastrate für Ihr Audiomaterial angeben. Nehmen Sie nach Möglichkeit mit einer Abtastrate von 16.000 Hz auf; dies ist der beste Kompromiss zwischen Qualität und Datenmenge, die über das Netzwerk übertragen wird. Beachten Sie, dass die meisten High-End-Mikrofone mit 44.100 Hz oder 48.000 Hz aufnehmen.