語彙フィルターを作成する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

語彙フィルターを作成する

カスタム語彙フィルターの作成には次の 2 つのオプションがあります。

  1. 行で区切られた単語のリストを、UTF-8 エンコーディングのプレーンテキストファイルとして保存する。

    • このアプローチは AWS Management Console、、 AWS CLI、または AWS SDKsで使用できます。

    • を使用する場合は AWS Management Console、カスタム語彙ファイルのローカルパスまたは Amazon S3 URI を指定できます。

    • AWS CLI または AWS SDKs を使用する場合は、カスタム語彙ファイルを Amazon S3 バケットにアップロードし、リクエストに URI Amazon S3 を含める必要があります。

  2. カンマ区切りの単語のリストを API リクエストに直接含めます。

    • このアプローチは、 Wordsパラメータを使用して AWS CLI または AWS SDKsで使用できます。

各方法の例については、「カスタム語彙フィルターの作成」を参照してください。

カスタム語彙フィルターを作成する際の注意事項

  • 単語では、大文字と小文字が区別されません。例えば、「curse」と「CURSE」は同じとみなされます。

  • 完全に一致する単語のみがフィルタリングされます。例えば、フィルターに「swear」が含まれていても、メディアに「swears」または「swearing」という単語が含まれている場合、これらはフィルタリングされません。フィルターの対象となるのは「swear」のインスタンスのみです。そのため、フィルタリングしたい単語のバリエーションをすべて含める必要があります。

  • フィルターは他の単語に含まれる単語には適用されません。例えば、カスタム語彙フィルターに「marine」が含まれていても、「submarine」が含まれていない場合、トランスクリプトでは「submarine」は変更されません。

  • 各エントリには 1 つの単語のみ入力できます (スペースなし)。

  • カスタム語彙フィルターをテキストファイルとして保存する場合は、UTF-8 エンコーディングのプレーンテキスト形式である必要があります。

  • ごとに最大 100 個のカスタム語彙フィルターを持つことができ AWS アカウント 、それぞれ最大 50 KB のサイズにすることができます。

  • 使用する言語でサポートされている文字のみを使用できます。詳細については、ご使用の言語の文字セットを参照してください。

カスタム語彙フィルターの作成

で使用するカスタム語彙フィルターを処理するには Amazon Transcribe、次の例を参照してください。

続行する前に、カスタム語彙フィルターをテキスト (*.txt) ファイルとして保存してください。オプションで、ファイルを Amazon S3 バケットにアップロードできます。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、[語彙フィルタリング] を選択します。語彙フィルターページが開き、既存のカスタム語彙フィルタ―を表示したり、新しい語彙フィルターを作成したりできます。

  3. [語彙フィルターの作成] を選択します。

    Amazon Transcribe コンソールのスクリーンショット:「語彙フィルター」ページ。

    これにより「語彙フィルターの作成」ページに移動します。新しいカスタム語彙フィルターの名前を入力します。

    [語彙入力ソース] で [ファイルアップロード] または [S3 ロケーション] オプションを選択します。次に、カスタム語彙ファイルの場所を指定します。

    Amazon Transcribe コンソールのスクリーンショット:「語彙フィルターの作成」ページ。
  4. オプションで、カスタム語彙フィルターにタグを追加します。すべてのフィールドを入力したら、ページの一番下にある [語彙フィルターの作成] を選択します。ファイルの処理中にエラーがなければ、語彙フィルターページに戻ります。

    カスタム語彙フィルターを使用する準備ができました。

この例では、create-vocary-filter コマンドを使用して、単語リストを使用可能なカスタム語彙フィルターに加工します。詳細については、「CreateVocabularyFilter」を参照してください。

オプション 1: words パラメータを使用して単語リストをリクエストに含めることができます。

aws transcribe create-vocabulary-filter \ --vocabulary-filter-name my-first-vocabulary-filter \ --language-code en-US \ --words profane,offensive,Amazon,Transcribe

オプション 2: 単語リストをテキストファイルとして保存して Amazon S3 バケットにアップロードし、vocabulary-filter-file-uri パラメータを使用してファイルの URI をリクエストに含めることができます。

aws transcribe create-vocabulary-filter \ --vocabulary-filter-name my-first-vocabulary-filter \ --language-code en-US \ --vocabulary-filter-file-uri s3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt

ここでは、create-vocabulary-filter コマンドと、カスタム語彙フィルターを作成するリクエストボディを使用した別の例を示します。

aws transcribe create-vocabulary-filter \ --cli-input-json file://filepath/my-first-vocab-filter.json

ファイル my-first-vocab-filter.json には、次のリクエストボディが含まれています。

オプション 1: Words パラメータを使用して単語リストをリクエストに含めることができます。

{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "Words": [ "profane","offensive","Amazon","Transcribe" ] }

オプション 2: 単語リストをテキストファイルとして保存して Amazon S3 バケットにアップロードし、VocabularyFilterFileUri パラメータを使用してファイルの URI をリクエストに含めることができます。

{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "VocabularyFilterFileUri": "s3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt" }
注記

VocabularyFilterFileUri をリクエストに含めると、Words は使用できません。どちらか一方を選択する必要があります。

この例では AWS SDK for Python (Boto3) 、 を使用して create_vocabulary_filter メソッドを使用してカスタム語彙フィルターを作成します。詳細については、「CreateVocabularyFilter」を参照してください。

機能固有の例、シナリオ例、クロスサービス例など、 AWS SDKsSDK を使用した Amazon Transcribe のコード例 AWS SDKs「」章を参照してください。

オプション 1: Words パラメータを使用して単語リストをリクエストに含めることができます。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, Words = [ 'profane','offensive','Amazon','Transcribe' ] )

オプション 2: 単語リストをテキストファイルとして保存して Amazon S3 バケットにアップロードし、VocabularyFilterFileUri パラメータを使用してファイルの URI をリクエストに含めることができます。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, VocabularyFilterFileUri = 's3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt' )
注記

VocabularyFilterFileUri をリクエストに含めると、Words は使用できません。どちらか一方を選択する必要があります。

注記

カスタム語彙フィルターファイル用に新しい Amazon S3 バケットを作成する場合は、CreateVocabularyFilterリクエストを行う IAM ロールにこのバケットへのアクセス許可があることを確認してください。ロールに正しいアクセス許可がない場合、リクエストは失敗します。オプションで、 DataAccessRoleArnパラメータを含めることで、リクエスト内で IAM ロールを指定できます。の IAM ロールとポリシーの詳細については Amazon Transcribe、「」を参照してくださいAmazon Transcribe アイデンティティベースのポリシーの例