テーブルを使用してカスタム語彙を作成する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テーブルを使用してカスタム語彙を作成する

カスタム語彙を作成するには、テーブル形式を使用することをおすすめします。語彙テーブルは 4 つの (Phrase, SoundsLike, IPA, and DisplayAs) 列で構成されている必要があり、どの順序でも含めることができます。

フレーズ SoundsLike IPA DisplayAs

必須。テーブルのすべての行には、この列のエントリが含まれている必要があります。

この列にはスペースを使用しないでください。

エントリに複数の単語が含まれている場合は、各単語をハイフン (-) で区切ります。例えば、Andorra-la-VellaLos-Angeles などです。

頭字語の場合は、発音する文字をすべてピリオドで区切る必要があります。末尾のピリオドも発音する必要があります。頭字語が複数形の場合は、頭字語と「s」の間にハイフンを使用する必要があります。たとえば、「CLI」は C.L.I. (C.L.I ではない) で、「ABCs」は A.B.C.-s (A.B.C-s ではない) です。

フレーズが単語と頭字語の両方で構成されている場合は、これら 2 つの要素をハイフンでつなぐ必要があります。たとえば、「DynamoDB」は Dynamo-D.B. です。

この列には数字を含めないでください。数字はスペルアウトする必要があります。たとえば、「VX02Q」は V.X.-zero-two-Q. です。

SoundsLike はカスタム語彙ではサポートされなくなりました。列は空のままにしてください。この列の値はすべて無視されます。この列のサポートは今後削除されます。

IPA はカスタム語彙ではサポートされなくなりました。列は空のままにしてください。この列の値はすべて無視されます。この列のサポートは今後削除されます。

オプション。この列の行は空のままでかまいません。

この列にはスペースを使用できます。

文字起こし出力でのエントリの表示方法を定義します。たとえば、Phrase 列の Andorra-la-VellaDisplayAs 列の Andorra la Vella にあります。

この列の行が空の場合、 はPhrase列の内容 Amazon Transcribe を使用して出力を決定します。

この列には数字 (0-9) を含めることができます。

テーブルを作成する際の注意事項

  • テーブルには、4 つの列ヘッダー がすべて含まれている必要があります(Phrase, SoundsLike, IPA, and DisplayAs)。Phrase 列には、各行にエントリが含まれている必要があります。IPA および を介して発音入力を提供する機能はサポートされSoundsLikeなくなり、列を空のままにすることができます。これらの列の値は無視されます。

  • 各列は TAB またはカンマ (,) で区切る必要があります。これはカスタム語彙ファイルのすべての行に適用されます。行に空の列がある場合でも、各列に区切り記号 (TAB またはカンマ) を含める必要があります。

  • スペースは IPA 列と DisplayAs 列のみ使用できます。列を区切るのにスペースを使用しないでください。

  • IPA および SoundsLikeは、カスタム語彙ではサポートされなくなりました。列は空のままにしてください。これらの列の値はすべて無視されます。この列のサポートは今後削除されます。

  • DisplayAs 列は記号と特殊文字 (C++ など) をサポートします。他のすべての列は、使用している言語の文字セットページに記載されている文字をサポートします。

  • Phrase 列に数字を含めたい場合は、数字をスペルアウトする必要があります。数字 (0-9) は DisplayAs 列でのみサポートされています。

  • テーブルは LF 形式のプレーンテキスト (*.txt) ファイルとして保存する必要があります。CRLF など、他の形式を使用した場合、カスタム語彙は処理できません。

  • 文字起こしリクエストに含めるCreateVocabulary前に、カスタム語彙ファイルを Amazon S3 バケットにアップロードし、 を使用して処理する必要があります。手順については、「カスタム語彙テーブルを作成する」を参照してください。

注記

頭字語など、1 文字ずつ個別に発音する単語は、ピリオド (A.B.C.) で区切って 1 文字で入力します。「ABC」のように複数形の頭字語を入力するには、「s」と頭字語をハイフン (A.B.C.-s) で区切ります。頭字語の入力には、大文字と小文字のどちらでも使用できます。頭字語はすべての言語には対応していません。「サポートされている言語および言語固有の機能」を参照してください。

カスタム語彙テーブル ([TAB] はタブ文字を表す) の例を以下に示します。

Phrase[TAB]SoundsLike[TAB]IPA[TAB]DisplayAs Los-Angeles[TAB][TAB][TAB]Los Angeles Eva-Maria[TAB][TAB][TAB] A.B.C.-s[TAB][TAB][TAB]ABCs Amazon-dot-com[TAB][TAB][TAB]Amazon.com C.L.I.[TAB][TAB][TAB]CLI Andorra-la-Vella[TAB][TAB][TAB]Andorra la Vella Dynamo-D.B.[TAB][TAB][TAB]DynamoDB V.X.-zero-two[TAB][TAB][TAB]VX02 V.X.-zero-two-Q.[TAB][TAB][TAB]VX02Q

見やすくするために、同じ表に列をそろえて示します。カスタム語彙テーブルの列間にスペースを入れないでください。前の例のようにテーブルの位置がずれて見えるはずです。

Phrase [TAB]SoundsLike [TAB]IPA [TAB]DisplayAs Los-Angeles [TAB] [TAB] [TAB]Los Angeles Eva-Maria [TAB] [TAB] [TAB] A.B.C.-s [TAB] [TAB] [TAB]ABCs amazon-dot-com [TAB] [TAB] [TAB]amazon.com C.L.I. [TAB] [TAB] [TAB]CLI Andorra-la-Vella[TAB] [TAB] [TAB]Andorra la Vella Dynamo-D.B. [TAB] [TAB] [TAB]DynamoDB V.X.-zero-two [TAB] [TAB] [TAB]VX02 V.X.-zero-two-Q.[TAB] [TAB] [TAB]VX02Q

カスタム語彙テーブルを作成する

で使用するカスタム語彙テーブルを処理するには Amazon Transcribe、次の例を参照してください。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、[カスタム語彙] を選択します。カスタム語彙のページが開き、既存の語彙の表示したり、新しい語彙を作成したりできます。

  3. [語彙の作成] を選択します。

    Amazon Transcribe コンソールのスクリーンショット:「カスタム語彙」ページ。

    語彙の作成」ページに移動します。新しいカスタム語彙の名前を入力します。

    次の 3 つの選択肢があります。

    1. コンピュータから txt または csv ファイルをアップロードします。

      カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。その後、語彙の表示と編集ペインに語彙が自動入力されます。

      Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
    2. Amazon S3 場所から txt または csv ファイルをインポートします。

      カスタム語彙を一から作成することも、テンプレートをダウンロードして始めることもできます。完成した語彙ファイルを Amazon S3 バケットにアップロードし、リクエストにその URI を指定します。その後、語彙の表示と編集ペインに語彙が自動入力されます。

      Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
    3. コンソールで語彙を手動で作成します。

      語彙の表示と編集ペインまでスクロールし、[10 行追加] を選択します。用語を手動で入力できるようになりました。

      Amazon Transcribe コンソールのスクリーンショット:「語彙の作成とインポート」ページ。
  4. 語彙の表示と編集ペインで語彙を編集できます。変更するには、変更するエントリをクリックします。

    Amazon Transcribe コンソールのスクリーンショット:「語彙の作成と編集」ペイン。

    エラーがあると詳細なエラーメッセージが表示されるので、語彙を処理する前に問題を修正できます。[語彙の作成] を選択する前にすべてのエラーを修正しないと、語彙のリクエストは失敗するので注意してください。

    Amazon Transcribe コンソールのスクリーンショット:「語彙の作成と編集」ペイン。

    チェックマーク (✓) を選択して変更を保存するか、「X」を選択して変更を破棄します。

  5. オプションで、カスタム語彙にタグを追加します。すべてのフィールドを入力し、語彙に問題がなければ、ページの一番下にある [語彙の作成] を選択します。カスタム語彙のページに戻ると、カスタム語彙のステータスを確認できます。ステータスが「保留中」から「準備完了」に変わったら、カスタム語彙を文字起こしに使用できます。

    Amazon Transcribe コンソールのスクリーンショット: 処理中の保留ステータスのカスタム語彙。
  6. ステータスが「失敗」に変わったら、カスタム語彙の名前を選択して、その語彙の情報ページに移動します。

    Amazon Transcribe コンソールのスクリーンショット: 「カスタム語彙」ページ。1 つの語彙は完了、もう 1 つは失敗と表示されています。

    このページの上部には、カスタム語彙が失敗した理由に関する情報が記載された失敗の理由バナーがあります。テキストファイルのエラーを修正して、もう一度試してください。

    Amazon Transcribe コンソールのスクリーンショット: 語彙の情報ページに失敗の理由が表示されます。

この例では、テーブル形式の語彙ファイルで語彙の作成コマンドを使用します。詳細については、「CreateVocabulary」を参照してください。

文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJobオペレーションを呼び出すときに VocabularyNameSettingsフィールドに を設定するか、 からドロップダウンリストからカスタム語 AWS Management Console彙を選択します。

aws transcribe create-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US

ここでは、語彙の作成コマンドと、カスタム語彙を作成するリクエストボディを使用した別の例を示します。

aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-table.json

ファイル my-first-vocab-table.json には、次のリクエスト本文が含まれています。

{ "VocabularyName": "my-first-vocabulary", "VocabularyFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt", "LanguageCode": "en-US" }

VocabularyStatePENDING から READY に変更すると、カスタム語彙を文字起こしに使用できるようになります。カスタム語彙の現在のステータスを表示するには、以下を実行します。

aws transcribe get-vocabulary \ --vocabulary-name my-first-vocabulary

この例では AWS SDK for Python (Boto3) 、 を使用して create_vocabulary メソッドを使用してテーブルからカスタム語彙を作成します。詳細については、「CreateVocabulary」を参照してください。

文字起こしジョブで既存のカスタム語彙を使用するには、StartTranscriptionJobオペレーションを呼び出すときに VocabularyNameSettingsフィールドに を設定するか、 からドロップダウンリストからカスタム語 AWS Management Console彙を選択します。

機能固有の例、シナリオ例、クロスサービス例など、 AWS SDKs「」のを使用した Amazon Transcribe のコード例 AWS SDKs章を参照してください。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記

カスタム語彙ファイル用に新しい Amazon S3 バケットを作成する場合は、CreateVocabularyリクエストを行う IAM ロールにこのバケットへのアクセス許可があることを確認してください。ロールに正しいアクセス許可がない場合、リクエストは失敗します。オプションで、 DataAccessRoleArnパラメータを含めることで、リクエスト内で IAM ロールを指定できます。の IAM ロールとポリシーの詳細については、 Amazon Transcribe「」を参照してくださいAmazon Transcribe ID ベースのポリシーの例