StartStreamTranscription - Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

StartStreamTranscription

Inicia um HTTP/2 ou WebSocket stream bidirecional em que o áudio é transmitido para o Amazon Transcribe e os resultados da transcrição são transmitidos para o aplicativo.

Os seguintes parâmetros são obrigatórios:

  • language-code ou identify-language

  • media-encoding

  • sample-rate

Para obter mais informações sobre streaming com o Amazon Transcribe, consulte Transcrição de streaming de áudio.

Sintaxe da solicitação

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "AudioStream": { "AudioEvent": { "AudioChunk": blob } } }

Parâmetros da solicitação de URI

A solicitação usa os parâmetros de URI a seguir.

ContentIdentificationType

Rotula todas as informações de identificação pessoal (PII) identificadas em sua transcrição.

A identificação do conteúdo é realizada no nível do segmento; as PII especificadas emPiiEntityTypes são sinalizadas após a transcrição completa de um segmento de áudio.

Você não pode definirContentIdentificationType eContentRedactionType na mesma solicitação. Se você definir ambos, sua solicitação retornará umBadRequestException.

Para obter mais informações, consulte Editando ou identificando informações de identificação pessoal.

Valores válidos: PII

ContentRedactionType

Redigi todas as informações de identificação pessoal (PII) identificadas em sua transcrição.

A redação do conteúdo é realizada no nível do segmento; as PII especificadas emPiiEntityTypes são editadas após a transcrição completa de um segmento de áudio.

Você não pode definirContentRedactionType eContentIdentificationType na mesma solicitação. Se você definir ambos, sua solicitação retornará umBadRequestException.

Para obter mais informações, consulte Editando ou identificando informações de identificação pessoal.

Valores válidos: PII

EnableChannelIdentification

Permite a identificação de canais em áudio multicanal.

A identificação do canal transcreve o áudio em cada canal de forma independente e, em seguida, acrescenta a saída de cada canal em uma transcrição.

Se você tiver áudio multicanal e não habilitar a identificação de canais, seu áudio será transcrito de forma contínua e sua transcrição não será separada por canal.

Se você incluirEnableChannelIdentification em sua solicitação, também deverá incluirNumberOfChannels.

Para obter mais informações, consulte Transcrever áudio de vários canais.

EnablePartialResultsStabilization

Permite a estabilização parcial do resultado para sua transcrição. A estabilização parcial dos resultados pode reduzir a latência na saída, mas pode afetar a precisão. Para obter mais informações, consulte Estabilização parcial do resultado.

IdentifyLanguage

Permite a identificação automática do idioma para sua transcrição.

Se você incluirIdentifyLanguage, poderá incluir opcionalmente uma lista de códigos de idioma, usandoLanguageOptions, que você acha que podem estar presentes em seu fluxo de áudio. Incluir opções de idioma pode melhorar a precisão da transcrição.

Você também pode incluir um idioma de preferência usandoPreferredLanguage. Adicionar um idioma preferido pode ajudar o Amazon Transcribe a identificar o idioma mais rapidamente do que se você omitir esse parâmetro.

Se você tiver áudio multicanal que contém idiomas diferentes em cada canal e habilitou a identificação do canal, a identificação automática de idioma identifica o idioma dominante em cada canal de áudio.

Observe que você deve incluir umLanguageCode ouIdentifyLanguage em sua solicitação. Se você incluir os dois parâmetros, sua solicitação falhará.

A identificação do idioma de streaming não pode ser combinada com modelos de linguagem ou redação personalizados.

LanguageCode

Especifique o código do idioma que representa o idioma falado em seu áudio.

Se você não tiver certeza do idioma falado no áudio, considere usarIdentifyLanguage para habilitar a identificação automática do idioma.

Para obter uma lista de idiomas compatíveis com o streaming do Amazon Transcribe, consulte a tabela de idiomas suportados.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Especifique o nome do modelo de idioma personalizado que você deseja usar ao processar sua transcrição. Observe que os nomes de modelo de idioma diferenciam letras maiúsculas de minúsculas.

O idioma do modelo de idioma especificado deve corresponder ao código do idioma especificado na solicitação de transcrição. Se os idiomas não corresponderem, o modelo de idioma personalizado não será aplicado. Não há erros ou avisos associados a uma incompatibilidade de idioma.

Para obter mais informações, consulte Modelos de linguagem personalizados.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

LanguageOptions

Especifique dois ou mais códigos de idioma que representem os idiomas que você acha que podem estar presentes em sua mídia; incluir mais de cinco não é recomendado. Se você não tiver certeza de quais idiomas estão presentes, não inclua esse parâmetro.

A inclusão de opções de idioma pode melhorar a precisão da identificação do idioma.

Se você incluirLanguageOptions em sua solicitação, também deverá incluirIdentifyLanguage.

Para obter uma lista de idiomas compatíveis com o streaming do Amazon Transcribe, consulte a tabela de idiomas suportados.

Importante

Você só pode incluir um dialeto de idioma por idioma por stream. Por exemplo, você não pode incluiren-US een-AU na mesma solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[a-zA-Z-,]+

MediaEncoding

Especifique a codificação do áudio de entrada. Os formatos com suporte são:

  • FLAC

  • Áudio codificado em Opus em um contêiner Ogg

  • PCM (somente formatos de áudio little-endian de 16 bits assinados, que não incluem WAV)

Para obter mais informações, consulte Formatos de mídia.

Valores válidos: pcm | ogg-opus | flac

Obrigatório: Sim

MediaSampleRateHertz

A taxa de amostragem do áudio de entrada (em hertz). O áudio de baixa qualidade, como o áudio do telefone, normalmente está em torno de 8.000 Hz. O áudio de alta qualidade normalmente varia de 16.000 Hz a 48.000 Hz. Observe que a taxa de amostragem especificada deve corresponder à do seu áudio.

Faixa válida: valor mínimo de 8000. Valor máximo de 48000.

Obrigatório: Sim

NumberOfChannels

Especifique o número de canais em seu stream de áudio. Esse valor deve ser2, pois somente dois canais são suportados. Se o áudio não contiver vários canais, não inclua esse parâmetro em sua solicitação.

Se você incluirNumberOfChannels em sua solicitação, também deverá incluirEnableChannelIdentification.

Faixa válida: valor mínimo de 2.

PartialResultsStability

Especifique o nível de estabilidade a ser usado ao ativar a estabilização parcial dos resultados (EnablePartialResultsStabilization).

A baixa estabilidade fornece a maior precisão. A alta estabilidade transcreve mais rapidamente, mas com uma precisão um pouco menor.

Para obter mais informações, consulte Estabilização parcial do resultado.

Valores válidos: high | medium | low

PiiEntityTypes

Especifique quais tipos de informações de identificação pessoal (PII) você deseja redigir em sua transcrição. Você pode incluir quantos tipos quiser ou selecionarALL.

Para incluirPiiEntityTypes em sua solicitação, você também deve incluir umContentIdentificationType ouContentRedactionType.

Os valores devem ser separados por vírgula e podem incluir:ADDRESSBANK_ACCOUNT_NUMBERBANK_ROUTINGCREDIT_DEBIT_CVVCREDIT_DEBIT_EXPIRY,CREDIT_DEBIT_NUMBER,EMAIL,NAME,PHONE,PIN,SSN, ouALL.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 300.

Padrão: ^[A-Z_, ]+

PreferredLanguage

Especifique um idioma preferido do subconjunto de códigos de idiomas que você especificou emLanguageOptions.

Você só pode usar esse parâmetro se tiver incluídoIdentifyLanguage eLanguageOptions em sua solicitação.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

SessionId

Especifique um nome para sua sessão de transcrição. Se você não incluir esse parâmetro em sua solicitação, o Amazon Transcribe gerará uma ID e a retornará na resposta.

Restrições de comprimento: comprimento fixo de 36.

Padrão: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Permite o particionamento de alto-falantes (diarização) em sua saída de transcrição. O particionamento de alto-falantes rotula a fala de alto-falantes individuais em seu arquivo de mídia.

Para obter mais informações, consulte Partitioning de alto-falantes (diarização).

VocabularyFilterMethod

Especifique como você deseja que seu filtro de vocabulário seja aplicado à sua transcrição.

Para substituir palavras por***, escolhamask.

Para excluir palavras, escolharemove.

Para sinalizar palavras sem alterá-las, escolhatag.

Valores válidos: remove | mask | tag

VocabularyFilterName

Especifique o nome do filtro de vocabulário personalizado que você deseja usar ao processar sua transcrição. Observe que os nomes de filtro de vocabulário diferenciam letras maiúsculas de minúsculas.

Se o idioma do filtro de vocabulário personalizado especificado não corresponder ao idioma identificado em sua mídia, o filtro de vocabulário não será aplicado à sua transcrição.

Importante

Esse parâmetro não se destina ao uso com oIdentifyLanguage parâmetro. Se você estiver incluindoIdentifyLanguage em sua solicitação e quiser usar um ou mais filtros de vocabulário com sua transcrição, use oVocabularyFilterNames parâmetro em vez disso.

Para obter mais informações, consulte Uso da filtragem de vocabulário com palavras indesejadas.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Especifique os nomes dos filtros de vocabulário personalizados que você deseja usar ao processar sua transcrição. Observe que os nomes de filtro de vocabulário diferenciam letras maiúsculas de minúsculas.

Se nenhum dos idiomas dos filtros de vocabulário personalizados especificados corresponder ao idioma identificado em sua mídia, seu trabalho falhará.

Importante

Esse parâmetro só se destina ao uso com oIdentifyLanguage parâmetro. Se você não estiver incluindoIdentifyLanguage em sua solicitação e quiser usar um filtro de vocabulário personalizado com sua transcrição, use oVocabularyFilterName parâmetro em vez disso.

Para obter mais informações, consulte Uso da filtragem de vocabulário com palavras indesejadas.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 3000.

Padrão: ^[a-zA-Z0-9,-._]+

VocabularyName

Especifique o nome do vocabulário personalizado que você deseja usar ao processar sua transcrição. Observe que os nomes do vocabulário diferenciam letras maiúsculas de minúsculas.

Se o idioma do vocabulário personalizado especificado não corresponder ao idioma identificado em sua mídia, o vocabulário personalizado não será aplicado à sua transcrição.

Importante

Esse parâmetro não se destina ao uso com oIdentifyLanguage parâmetro. Se você estiver incluindoIdentifyLanguage em sua solicitação e quiser usar um ou mais vocabulários personalizados com sua transcrição, use oVocabularyNames parâmetro em vez disso.

Para obter mais informações, consulte Vocabulários personalizados.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

VocabularyNames

Especifique os nomes dos vocabulários personalizados que você deseja usar ao processar sua transcrição. Observe que os nomes do vocabulário diferenciam letras maiúsculas de minúsculas.

Se nenhum dos idiomas dos vocabulários personalizados especificados corresponder ao idioma identificado em sua mídia, seu trabalho falhará.

Importante

Esse parâmetro só se destina ao uso com oIdentifyLanguage parâmetro. Se você não estiver incluindoIdentifyLanguage em sua solicitação e quiser usar um vocabulário personalizado com sua transcrição, use oVocabularyName parâmetro em vez disso.

Para obter mais informações, consulte Vocabulários personalizados.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 3000.

Padrão: ^[a-zA-Z0-9,-._]+

Corpo da solicitação

A solicitação aceita os dados a seguir no formato JSON.

AudioStream

Um fluxo codificado de bolhas de áudio. Os fluxos de áudio são codificados como HTTP/2 ou quadros WebSocket de dados.

Para obter mais informações, consulte Transcrever streaming de áudio.

Tipo: objeto AudioStream

Obrigatório: Sim

Sintaxe da resposta

HTTP/2 200 x-amzn-request-id: RequestId x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-vocabulary-name: VocabularyName x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-vocabulary-filter-name: VocabularyFilterName x-amzn-transcribe-vocabulary-filter-method: VocabularyFilterMethod x-amzn-transcribe-show-speaker-label: ShowSpeakerLabel x-amzn-transcribe-enable-channel-identification: EnableChannelIdentification x-amzn-transcribe-number-of-channels: NumberOfChannels x-amzn-transcribe-enable-partial-results-stabilization: EnablePartialResultsStabilization x-amzn-transcribe-partial-results-stability: PartialResultsStability x-amzn-transcribe-content-identification-type: ContentIdentificationType x-amzn-transcribe-content-redaction-type: ContentRedactionType x-amzn-transcribe-pii-entity-types: PiiEntityTypes x-amzn-transcribe-language-model-name: LanguageModelName x-amzn-transcribe-identify-language: IdentifyLanguage x-amzn-transcribe-language-options: LanguageOptions x-amzn-transcribe-preferred-language: PreferredLanguage x-amzn-transcribe-vocabulary-names: VocabularyNames x-amzn-transcribe-vocabulary-filter-names: VocabularyFilterNames Content-type: application/json { "TranscriptResultStream": { "BadRequestException": { }, "ConflictException": { }, "InternalFailureException": { }, "LimitExceededException": { }, "ServiceUnavailableException": { }, "TranscriptEvent": { "Transcript": { "Results": [ { "Alternatives": [ { "Entities": [ { "Category": "string", "Confidence": number, "Content": "string", "EndTime": number, "StartTime": number, "Type": "string" } ], "Items": [ { "Confidence": number, "Content": "string", "EndTime": number, "Speaker": "string", "Stable": boolean, "StartTime": number, "Type": "string", "VocabularyFilterMatch": boolean } ], "Transcript": "string" } ], "ChannelId": "string", "EndTime": number, "IsPartial": boolean, "LanguageCode": "string", "LanguageIdentification": [ { "LanguageCode": "string", "Score": number } ], "ResultId": "string", "StartTime": number } ] } } } }

Elementos de resposta

Se a ação for bem-sucedida, o serviço reenviará uma resposta HTTP 200.

A resposta retorna os cabeçalhos HTTP a seguir.

ContentIdentificationType

Mostra se a identificação do conteúdo foi ativada para sua transcrição.

Valores válidos: PII

ContentRedactionType

Mostra se a redação do conteúdo foi habilitada para sua transcrição.

Valores válidos: PII

EnableChannelIdentification

Mostra se a identificação do canal foi ativada para sua transcrição.

EnablePartialResultsStabilization

Mostra se a estabilização parcial dos resultados foi ativada para sua transcrição.

IdentifyLanguage

Mostra se a identificação automática do idioma foi ativada para sua transcrição.

LanguageCode

Fornece o código de idioma que você especificou em sua solicitação.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

LanguageModelName

Fornece o nome do modelo de idioma personalizado que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

LanguageOptions

Fornece os códigos de idioma que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[a-zA-Z-,]+

MediaEncoding

Fornece a codificação de mídia que você especificou em sua solicitação.

Valores válidos: pcm | ogg-opus | flac

MediaSampleRateHertz

Fornece a taxa de amostragem que você especificou em sua solicitação.

Faixa válida: valor mínimo de 8000. Valor máximo de 48000.

NumberOfChannels

Fornece o número de canais que você especificou em sua solicitação.

Faixa válida: valor mínimo de 2.

PartialResultsStability

Fornece o nível de estabilização usado para sua transcrição.

Valores válidos: high | medium | low

PiiEntityTypes

Lista os tipos de entidades de PII que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 300.

Padrão: ^[A-Z_, ]+

PreferredLanguage

Fornece o idioma preferencial que você especificou em sua solicitação.

Valores válidos: en-US | en-GB | es-US | fr-CA | fr-FR | en-AU | it-IT | de-DE | pt-BR | ja-JP | ko-KR | zh-CN | hi-IN | th-TH

RequestId

Fornece o identificador para sua solicitação de streaming.

SessionId

Fornece o identificador para sua sessão de transcrição.

Restrições de comprimento: comprimento fixo de 36.

Padrão: [a-fA-F0-9]{8}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{4}-[a-fA-F0-9]{12}

ShowSpeakerLabel

Mostra se o particionamento do alto-falante foi ativado para sua transcrição.

VocabularyFilterMethod

Fornece o método de filtragem de vocabulário usado em sua transcrição.

Valores válidos: remove | mask | tag

VocabularyFilterName

Fornece o nome do filtro de vocabulário personalizado que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

VocabularyFilterNames

Fornece os nomes dos filtros de vocabulário personalizados que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 3000.

Padrão: ^[a-zA-Z0-9,-._]+

VocabularyName

Fornece o nome do vocabulário personalizado que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 200.

Padrão: ^[0-9a-zA-Z._-]+

VocabularyNames

Fornece os nomes dos vocabulários personalizados que você especificou em sua solicitação.

Restrições de tamanho: tamanho mínimo 1. Tamanho máximo de 3000.

Padrão: ^[a-zA-Z0-9,-._]+

Os seguintes dados são retornados no formato JSON pelo serviço.

TranscriptResultStream

Fornece informações detalhadas sobre sua sessão de streaming.

Tipo: objeto TranscriptResultStream

Erros

Para obter informações sobre os erros comuns a todas as ações, consulteErros comuns.

BadRequestException

Um ou mais argumentos para aStartCallAnalyticsStreamTranscription operaçãoStartStreamTranscriptionStartMedicalStreamTranscription, ou não eram válidos. Por exemplo,MediaEncoding ouLanguageCode usou valores não suportados. Verifique os parâmetros especificados e tente fazer sua solicitação novamente.

Código de status HTTP: 400

ConflictException

Um novo stream começou com o mesmo ID de sessão. O fluxo atual foi encerrado.

Código de status HTTP: 409

InternalFailureException

Ocorreu um problema ao processar o áudio. O Amazon Transcribe encerrou o processamento.

Código de status HTTP: 500

LimitExceededException

Seu cliente ultrapassou um dos limites do Amazon Transcribe. Normalmente, esse é o limite de duração do áudio. Divida seu fluxo de áudio em partes menores e tente fazer sua solicitação novamente.

Código de status HTTP: 429

ServiceUnavailableException

O serviço está indisponível no momento. Experimente sua solicitação mais tarde.

Código de status HTTP: 503

Consulte também

Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: