語彙フィルターを作成する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

語彙フィルターを作成する

カスタムボキャブラリーフィルターを作成するには、次の 2 つのオプションがあります。

  1. 行で区切られた単語のリストを UTF-8 エンコーディングのプレーンテキストファイルとして保存します。

    • この方法はAWS Management Console、AWS CLI、またはAWS SDK で使用できます。

    • を使用する場合AWS Management Console、カスタムボキャブラリファイルのローカルパスまたはAmazon S3 URI を指定できます。

    • AWS CLIまたはAWS SDK を使用する場合は、Amazon S3カスタムボキャブラリファイルをバケットにアップロードし、リクエストにAmazon S3 URI を含める必要があります。

  2. API リクエストに、カンマ区切りの単語のリストを直接追加します。

    • この方法は、AWS CLIまたはAWS SDK Wordsでパラメータを使用して使用できます。

各方法の例については、を参照してください。カスタム語彙フィルターを作成する

カスタムボキャブラリーフィルターを作成する際の注意点:

  • 単語は、大文字と小文字が区別されません。たとえば、「呪い」と「呪い」は同じように扱われます。

  • 完全に一致する単語のみがフィルタリングされます。例えば、フィルターに「swear」が含まれていても、メディアに「swears」が含まれていても「swears」が含まれていても、フィルタリングされません。「swear」のインスタンスのみがフィルタリングされます。そのため、フィルターしたい単語のバリエーションをすべて含める必要があります。

  • フィルターは、他の単語に含まれる単語には適用されません。例えば、カスタム語彙フィルターに「marine」が含まれていても「submarine」が含まれていない場合、トランスクリプトの「submarine」をフィルタリングしません。

  • 各エントリに含めることができる単語は 1 つだけです (スペースは不可)。

  • カスタムボキャブラリフィルターをテキストファイルとして保存する場合は、UTF-8 エンコーディングのプレーンテキスト形式にする必要があります。

  • 1AWS アカウント つあたり最大 100 個のカスタムボキャブラリフィルターを使用でき、それぞれのサイズは 50 KB までです。

  • 使用している言語でサポートされている文字のみを使用できます。詳細については、使用する言語の文字セットを参照してください

カスタム語彙フィルターを作成する

で使用するカスタムボキャブラリフィルターを処理するにはAmazon Transcribe、以下の例を参照してください。

続行する前に、カスタムボキャブラリーフィルターをテキスト (*.txt) ファイルとして保存してください。Amazon S3オプションでファイルをバケットにアップロードできます。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、[語彙フィルタリング] を選択します。これにより、「語彙フィルター」ページが開き、既存のカスタム語彙フィルターを表示したり、新しい語彙フィルターを作成したりできます。

  3. [語彙フィルターを作成] を選択します。

    Amazon Transcribeコンソールのスクリーンショット:「語彙フィルター」ページ

    これにより、「語彙フィルタの作成」ページが表示されます。新しいカスタム語彙フィルターの名前を入力します。

    [語彙入力ソース] で [ファイルのアップロード] または [S3 の場所] オプションを選択します。次に、カスタム語彙ファイルの場所を指定します。

    Amazon Transcribeコンソールのスクリーンショット:「語彙フィルターの作成」ページ
  4. オプションで、カスタムボキャブラリーフィルターにタグを追加します。すべてのフィールドを完了したら、ページ下部の「語彙フィルターを作成する」を選択します。ファイルの処理中にエラーがなければ、「語彙フィルター」ページに戻ります。

    カスタム語彙フィルターを使用する準備ができました。

この例では、create-vocabulary-filterコマンドを使用して単語リストを使用可能なカスタムボキャブラリフィルターに処理します。詳細については、「CreateVocabularyFilter」を参照してください。

オプション 1:words パラメータを使用して、リクエストに単語のリストを含めることができます。

aws transcribe create-vocabulary-filter \ --vocabulary-filter-name my-first-vocabulary-filter \ --language-code en-US \ --words profane,offensive,Amazon,Transcribe

オプション 2:Amazon S3 単語のリストをテキストファイルとして保存してバケットにアップロードし、vocabulary-filter-file-uriパラメータを使用してリクエストにファイルの URI を含めることができます。

aws transcribe create-vocabulary-filter \ --vocabulary-filter-name my-first-vocabulary-filter \ --language-code en-US \ --vocabulary-filter-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabulary-filters/my-vocabulary-filter.txt

次に、create-vocabulary-filterコマンドと、カスタム語彙フィルターを作成するリクエストボディを使用した別の例を示します。

aws transcribe create-vocabulary-filter \ --cli-input-json file://filepath/my-first-vocab-filter.json

ファイル my-first-vocab-filter.json に次のリクエストボディが入ります。

オプション 1:Words パラメータを使用して、リクエストに単語のリストを含めることができます。

{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "Words": [ "profane","offensive","Amazon","Transcribe" ] }

オプション 2:Amazon S3 単語のリストをテキストファイルとして保存してバケットにアップロードし、VocabularyFilterFileUriパラメータを使用してリクエストにファイルの URI を含めることができます。

{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "VocabularyFilterFileUri": "s3://DOC-EXAMPLE-BUCKET/my-vocabulary-filters/my-vocabulary-filter.txt" }
注記

VocabularyFilterFileUriリクエストに含めると、使用できませんWords。どちらか一方を選択する必要があります。

この例では、AWS SDK for Python (Boto3)を使用して create_vocabulary ary_filter メソッドを使用してカスタムボキャブラリフィルターを作成しています。詳細については、「CreateVocabularyFilter」を参照してください。

機能固有、シナリオ、サービス間の例など、AWS SDK を使用するその他の例については、を使用した Amazon Transcribe のコード例 AWS SDKsこの章を参照してください。

オプション 1:Words パラメータを使用して、リクエストに単語のリストを含めることができます。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, Words = [ 'profane','offensive','Amazon','Transcribe' ] )

オプション 2:Amazon S3 単語のリストをテキストファイルとして保存してバケットにアップロードし、VocabularyFilterFileUriパラメータを使用してリクエストにファイルの URI を含めることができます。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, VocabularyFilterFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabulary-filters/my-vocabulary-filter.txt' )
注記

VocabularyFilterFileUriリクエストに含めると、使用できませんWords。どちらか一方を選択する必要があります。

注記

Amazon S3カスタムボキャブラリーフィルターファイル用に新しいバケットを作成する場合は、IAMCreateVocabularyFilterリクエストを行うロールにこのバケットにアクセスする権限があることを確認してください。ロールに正しいアクセス許可が含まれていない場合、リクエストは失敗します。DataAccessRoleArnパラメータを含めることで、IAMリクエスト内のロールを任意で指定できます。IAMのロールとポリシーの詳細についてはAmazon Transcribe、を参照してくださいAmazon Transcribe アイデンティティベースポリシーの例