Criando um arquivo de texto para seu vocabulário médico personalizado - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criando um arquivo de texto para seu vocabulário médico personalizado

Para criar um vocabulário personalizado, você cria um arquivo de texto no formato UTF-8. Nesse arquivo, você cria uma tabela de quatro colunas, com cada coluna especificando um campo. Cada campo informa àAmazon Transcribe Medicina como os termos específicos do domínio são pronunciados ou como exibi-los em suas transcrições. Você armazena o arquivo de texto contendo esses campos em umAmazon S3 bucket.

Entendendo como formatar seu arquivo de texto

Para criar um vocabulário médico personalizado, você insere os nomes das colunas como uma linha de cabeçalho. Você insere os valores de cada coluna abaixo da linha do cabeçalho.

A seguir estão os nomes das quatro colunas da tabela:

  • Phrase— coluna obrigatória, valores obrigatórios

  • IPA— coluna obrigatória, os valores podem ser opcionais

  • SoundsLike— coluna obrigatória, os valores podem ser opcionais

  • DisplayAs— coluna obrigatória, os valores podem ser opcionais

Ao criar um vocabulário personalizado, certifique-se de:

  • Separe cada coluna com um único caractere Tab. Amazon Transcribeemite uma mensagem de erro se você tentar separar as colunas com espaços ou caracteres de tabulação.

  • Certifique-se de que não haja espaços à direita ou espaços em branco após cada valor em uma coluna.

Certifique-se de que os valores inseridos para cada coluna:

Inserindo valores para as colunas da tabela

As informações a seguir mostram como especificar valores para as quatro colunas da tabela:

  • Phrase— A palavra ou frase que deve ser reconhecida. Você deve inserir valores nesta coluna.

    Se a entrada for uma frase, separe as palavras com um hífen (-). Por exemplo, insira cerebral autosomal dominant arteriopathy with subcortical infarcts and leukoencephalopathy como cerebral-autosomal-dominant-arteriopathy-with-subcortical-infarcts-and-leukoencephalopathy.

    Insira os acrônimos ou outras palavras cujas letras devem ser pronunciadas individualmente como letras únicas seguidas por pontos, como D.N.A. ou S.T.E.M.I.. Para inserir a forma plural de um acrônimo, como “STEMIs”, separe o “s” da sigla com um hífen: "S.T.E.M.I-s" Você pode usar letras maiúsculas ou minúsculas para acrônimos.

    A coluna Phrase é obrigatória. Você pode usar qualquer um dos caracteres permitidos para o idioma de entrada. Para caracteres permitidos, consulte Conjunto de caracteres paraAmazon Transcribe Medicina. Se você não especificar aDisplayAs coluna, oAmazon Transcribe Medical usará o conteúdo daPhrase coluna no arquivo de saída.

  • IPA(coluna obrigatória, os valores podem ser opcionais) — Para especificar a pronúncia de uma palavra ou frase, você pode incluir caracteres no Alfabeto Fonético Internacional (IPA) nessa coluna. A coluna IPA não pode conter espaços no início nem no final, e você deve usar um único espaço para separar cada fonema na entrada. Por exemplo, em inglês, a expressão acute-respiratory-distress-syndrome seria inserida como ə k j u t ɹ ɛ s p ɪ ɹ ə t ɔ ɹ i d ɪ s t ɹ ɛ s s ɪ n d ɹ oʊ m. A expressão A.L.L. seria inserida como eɪ ɛ l ɛ l.

    Mesmo que não especifique o conteúdo da coluna IPA, você deve incluir uma coluna IPA em branco. Se você incluir valores na coluna IPA, não poderá fornecer valores para a coluna SoundsLike.

    Para obter uma lista de caracteres IPA permitidos para um idioma específico, consulte Conjunto de caracteres paraAmazon Transcribe Medicina. O inglês americano é o único idioma disponível emAmazon Transcribe Medicina.

  • SoundsLike(coluna obrigatória, os valores podem ser opcionais) — Você pode dividir uma palavra ou frase em segmentos menores e fornecer uma pronúncia para cada segmento usando a ortografia padrão do idioma para imitar a forma como a palavra soa. Por exemplo, em inglês, você pode fornecer dicas de pronúncia para a expressão cerebral-autosomal-dominant-arteriopathy-with-subcortical-infarcts-and-leukoencephalopathy desta forma: sir-e-brul-aut-o-som-ul-dah-mi-nant-ar-ter-ri-o-pa-thy-with-sub-cor-ti-cul-in-farcts-and-lewk-o-en-ce-phul-ah-pu-thy. A dica para a expressão atrioventricular-nodal-reentrant-tachycardia seria assim: ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia. Você separa cada parte da dica com um hífen (-).

    Mesmo que não forneça valores para a coluna SoundsLike, você deve incluir uma coluna SoundsLike em branco. Se você incluir valores na coluna SoundsLike, não poderá fornecer valores para a coluna IPA.

    Você pode usar qualquer um dos caracteres permitidos para o idioma de entrada. Para obter uma lista de caracteres permitidos, consulte Conjunto de caracteres paraAmazon Transcribe Medicina.

  • DisplayAs(coluna obrigatória, os valores podem ser opcionais) — Define a aparência da palavra ou frase quando é emitida. Por exemplo, se a palavra ou expressão for cerebral-autosomal-dominant-arteriopathy-with-subcortical-infarcts-and-leukoencephalopathy, você poderá especificar a forma de exibição como cerebral autosomal dominant arteriopathy with subcortical infarcts and leukoencephalopathy, para que o hífen não esteja presente. Você também poderá especificar DisplayAs como CADASIL se desejar mostrar o acrônimo em vez do termo completo na saída.

    Se você não especificar aDisplayAs coluna, oAmazon Transcribe Medical usará aPhrase coluna do arquivo de entrada na saída.

    Você pode usar qualquer caractere UTF-8 na coluna DisplayAs.

Você pode incluir espaços somente para os valores nasDisplayAs colunasIPA e.

Para criar o arquivo de texto do seu vocabulário personalizado, coloque cada palavra ou frase em seu arquivo de texto em uma linha separada. Separe as colunas com caracteres de tabulação. Inclua espaços somente para valores nas colunas IPA e DisplayAs. Salve o arquivo com a extensão.txt em umAmazon S3 bucket no mesmoRegião da AWS local em que você usa oAmazon Transcribe Medical para criar seu vocabulário personalizado.

Se você editar o arquivo de texto no Windows, certifique-se de que seu arquivo esteja no formato LF e não no formato CRLF. Caso contrário, você não poderá criar seu vocabulário personalizado. Alguns editores de texto permitem alterar a formatação com os comandos Find (Localizar) e Replace (Substituir).

Os exemplos a seguir mostram o texto que você pode usar para criar vocabulários personalizados. Para criar um vocabulário personalizado a partir destes exemplos, copie um exemplo em um editor de texto, substitua [TAB] por um caractere de tabulação e carregue o arquivo de texto salvo no Amazon S3.

Phrase[TAB]IPA[TAB]SoundsLike[TAB]DisplayAs acute-respiratory-distress-syndrome[TAB][TAB][TAB]acute respiratory distress syndrome A.L.L.[TAB]eɪ ɛ l ɛ l[TAB][TAB]ALL atrioventricular-nodal-reentrant-tachycardia[TAB][TAB]ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia[TAB]

Você pode inserir colunas em qualquer ordem. Os exemplos a seguir mostram outras estruturas válidas para o arquivo de entrada de vocabulário personalizado.

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs acute-respiratory-distress-syndrome[TAB][TAB][TAB]acute respiratory distress syndrome A.L.L.[TAB][TAB]eɪ ɛ l ɛ l[TAB]ALL atrioventricular-nodal-reentrant-tachycardia[TAB]ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia[TAB][TAB]
DisplayAs[TAB]SoundsLike[TAB]IPA[TAB]Phrase acute respiratory distress syndrome[TAB][TAB][TAB]acute-respiratory-distress-syndrome ALL[TAB][TAB]eɪ ɛ l ɛ l[TAB]A.L.L. [TAB]ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia[TAB][TAB]atrioventricular-nodal-reentrant-tachycardia

Para facilitar a leitura, as tabelas a seguir mostram os exemplos anteriores mais claramente no formato html. Eles servem apenas para ilustrar os exemplos.

Phrase AFI SoundsLike DisplayAs
acute-respiratory-distress-syndrome acute respiratory distress syndrome
A.L.L. eɪ ɛ l ɛ l ALL
atrioventricular-nodal-reentrant-tachycardia ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia
Phrase SoundsLike AFI DisplayAs
acute-respiratory-distress-syndrome acute respiratory distress syndrome
atrioventricular-nodal-reentrant-tachycardia ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia
A.L.L. eɪ ɛ l ɛ l ALL
DisplayAs SoundsLike AFI Phrase
acute respiratory distress syndrome acute-respiratory-distress-syndrome
ALL eɪ ɛ l ɛ l A.L.L.
ay-tree-o-ven-trick-u-lar-node-al-re-entr-ant-tack-ih-card-ia atrioventricular-nodal-reentrant-tachycardia