Transkribieren gestreamter Audiodaten - Amazon Transcribe

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Transkribieren gestreamter Audiodaten

Mithilfe von Amazon Transcribe Streaming können Sie in Echtzeit Transkriptionen für Ihre Medieninhalte erstellen. Im Gegensatz zu Batch-Transkriptionen, bei denen Mediendateien hochgeladen werden, werden Streaming-Medien in Echtzeit übertragen. Amazon Transcribe Amazon Transcribe gibt dann ein Transkript zurück, ebenfalls in Echtzeit.

Streaming kann sowohl aufgezeichnete Medien (Filme, Musik und Podcasts) als auch Echtzeitmedien (Live-Nachrichtensendungen) umfassen. Zu den häufigsten Streaming-Anwendungsfällen Amazon Transcribe gehören Live-Untertitel für Sportveranstaltungen und die Echtzeitüberwachung von Callcenter-Audio.

Streaming-Inhalte werden in Form von aufeinanderfolgenden Datenpaketen oder „Chunks“ geliefert, die Amazon Transcribe sofort transkribiert. Zu den Vorteilen der Verwendung von Streaming gegenüber Batch gehören speech-to-text Echtzeitfunktionen in Ihren Anwendungen und schnellere Transkriptionszeiten. Diese höhere Geschwindigkeit kann jedoch in einigen Fällen zu Einschränkungen bei der Genauigkeit führen.

Amazon Transcribe bietet die folgenden Optionen für das Streaming:

Um Streaming-Audio in der zu transkribieren AWS Management Console, sprechen Sie in Ihr Computermikrofon.

Tipp

SDKCodebeispiele finden Sie im AWS Samples-Repository unter. GitHub

Folgende Audioformate werden für Streaming-Transkriptionen unterstützt:

  • FLAC

  • OPUS-codiertes Audio in einem Ogg-Container

  • PCM(nur signierte 16-Bit-Little-Endian-Audioformate, nicht enthalten) WAV

Verlustfreie Formate (oder) werden empfohlenFLAC. PCM

Anmerkung

Streaming-Transkriptionen werden nicht in allen Sprachen unterstützt. Einzelheiten finden Sie in der Spalte „Dateneingabe“ in der Tabelle „Unterstützte Sprachen“.

Informationen zur Verfügbarkeit von Streaming-Transkriptionen in der Amazon Transcribe Region finden Sie unter: Amazon Transcribe Endpunkte und Kontingente.

Bewährte Methoden

Die folgenden Empfehlungen verbessern die Effizienz der Streaming-Transkription:

  • Verwenden Sie nach Möglichkeit -codiertes AudioPCM.

  • Stellen Sie sicher, dass Ihr Stream so nah wie möglich an Echtzeit ist.

  • Die Latenzzeit hängt von der Größe der Audio-Blöcke ab. Wenn Sie die Chunk-Größe mit Ihrem Audiotyp (z. B. mitPCM) angeben können, legen Sie für jeden Chunk einen Wert zwischen 50 ms und 200 ms fest. Sie können die Größe des Audio-Chunks mit der folgenden Formel berechnen:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Verwenden Sie eine einheitliche Chunk-Größe.

  • Stellen Sie sicher, dass Sie die Anzahl der Audiokanäle korrekt angeben.

  • Bei PCM Einkanal-Audio besteht jedes Sample aus zwei Byte, sodass jeder Chunk aus einer geraden Anzahl von Byte bestehen sollte.

  • Bei PCM Zweikanal-Audio besteht jedes Sample aus vier Byte, sodass jeder Chunk ein Vielfaches von 4 Byte sein sollte.

  • Wenn Ihr Audiostream keine Sprache enthält, kodieren und senden Sie die gleiche Menge an Stille. Silence for PCM ist beispielsweise ein Stream von Null Byte.

  • Vergewissern Sie sich, dass Sie die richtige Abtastrate für Ihr Audiomaterial angeben. Nehmen Sie nach Möglichkeit mit einer Abtastrate von 16.000 Hz auf; dies ist der beste Kompromiss zwischen Qualität und Datenmenge, die über das Netzwerk übertragen wird. Beachten Sie, dass die meisten High-End-Mikrofone mit 44.100 Hz oder 48.000 Hz aufnehmen.