バッチジョブで PII を編集する - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

バッチジョブで PII を編集する

バッチ文字起こしジョブ中にトランスクリプトから個人を特定できる情報 (PII) を編集すると、 は、識別された PII の各インスタンスをトランスクリプトの本文[PII]の Amazon Transcribe に置き換えます。文字起こし出力の word-for-word 部分で編集された PII のタイプを表示することもできます。出力サンプルについては、「編集された出力例 (バッチ)」を参照してください。

バッチ文字起こしによる編集は、米国英語 (en-US) と米国スペイン語 () で利用できますes-US。リダクションは言語識別と互換性がありません。

編集済みトランスクリプトと未編集トランスクリプトの両方が同じ出力 Amazon S3 バケットに保存されます。 Amazon Transcribe は、指定したバケット、またはサービスによって管理されるデフォルト Amazon S3 バケットにトランスクリプトを保存します。

バッチ文字起こしで認識 Amazon Transcribe できる PII のタイプ
PII タイプ 説明
ADDRESS

実際の住所、米国、エニータウン市。メインストリート 100 番地や、ビル 123 番、スイート 12 番など。住所には、通り、ビル、場所、市区町村、州、国、郡、郵便番号、管区、近隣などを含めることができます。

ALL

この表に記載されているすべての PII のタイプを編集または特定します。

BANK_ACCOUNT_NUMBER

米国の銀行口座番号 この番号は通常 10~12 桁の長さですが、 Amazon Transcribe は下 4 桁のみの銀行口座番号も認識します。

BANK_ROUTING

米国の銀行口座の支店コード この番号は通常 9 桁の長さですが、 Amazon Transcribe は下 4 桁のみの支店コードも認識します。

CREDIT_DEBIT_CVV

VISA に存在する 3 桁のカード検証コード (CVV) MasterCard、Discover クレジットカードとデビットカード。American Express のクレジットカードまたはデビットカードでは、4 桁の数字コードです。

CREDIT_DEBIT_EXPIRY

クレジットカードまたはデビットカードの有効期限日 この番号は通常 4 桁で、「月/年」または「MM/YY」という形式になっています。例えば、 は 01/2101/2021、Jan 2021 などの有効期限を認識 Amazon Transcribe できます。

CREDIT_DEBIT_NUMBER

クレジットカードまたはデビットカードの番号。これらの番号の長さは 13 桁から 16 桁までさまざまですが、最後の 4 桁のみが存在する場合はクレジットカード番号またはデビットカード番号 Amazon Transcribe も認識されます。

EMAIL

efua.owusu@email.com などのメールアドレス。

NAME

個人の名前。このエンティティタイプには、Mr.、Mrs.、Miss、Dr. Amazon Transcribe does などのタイトルは含まれません。このエンティティタイプは、組織または住所の一部である名前には適用されません。例えば、 は John Doe Organization を組織として認識し、Jane Doe Street を住所として Amazon Transcribe 認識します。

PHONE

電話番号 このエンティティタイプには、ファックス番号とポケットベル番号も含まれます。

PIN

銀行口座情報へのアクセスを可能にする 4 桁の個人識別番号 (PIN)。

SSN

社会保障番号 (SSN) は、米国市民、永住者、および一時的な労働居住者に発行される 9 桁の番号です。 は、最後の 4 桁のみが存在する場合に社会保障番号 Amazon Transcribe も認識します。

バッチ文字起こしジョブは AWS Management Console、、 AWS CLI、または AWS SDK を使用して開始できます。

  1. AWS Management Consoleにサインインします。

  2. ナビゲーションペインで、[文字起こしジョブ] を選択後、[ジョブの作成] (右上) を選択します。これにより、ジョブの詳細を指定 ページが開きます。

  3. ジョブの詳細を指定する ページで必要な項目を入力したら、[次へ] を選択して、ジョブの設定 - オプション ページに進みます。ここには PII リダクション切り替えが付いたコンテンツ削除パネルがあります。

    Amazon Transcribe コンソールのスクリーンショット:「ジョブの設定」ページの「コンテンツ削除ペイン」。
  4. [PII リダクション] を選択すると、編集したいすべての PII タイプを選択するオプションがあります。「未編集のトランスクリプトをジョブ出力に含める」ボックスを選択した場合は、未編集のトランスクリプトを選択することもできます。

    Amazon Transcribe コンソールのスクリーンショット: PII オプションを示す「コンテンツの削除」ペイン。
  5. [ジョブの作成] を選択して、文字起こしジョブを実行します。

この例では、 start-transcription-job コマンドと content-redactionパラメータを使用します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

start-transcription-job メソッドを使用した別の例を次に示します。リクエストボディはそのジョブの PII を編集します。

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

ファイル my-first-redaction-job.json には、次のリクエスト本文が含まれています。

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

この例では、 を使用して AWS SDK for Python (Boto3) 、start_transcription_job メソッドの ContentRedaction引数を使用してコンテンツを編集します。詳細については、「StartTranscriptionJob」および「ContentRedaction」を参照してください。

機能固有の例、シナリオ例、クロスサービス例など、 AWS SDKs「」のを使用した Amazon Transcribe のコード例 AWS SDKs章を参照してください。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注記

バッチジョブの PII リダクションは、次の でのみサポートされています AWS リージョン。アジアパシフィック (香港)、アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京) GovCloud 、(米国西部)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (パリ)、中東 (バーレーン)、南米 (サンパウロ)、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)。