在批次工作中修訂 PII - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在批次工作中修訂 PII

[PII]在批次轉錄工作期間,從成績單中編輯個人識別資訊 (PII) 時, Amazon Transcribe 會在成績單的主要文字內文中取代每個識別的 PII 執行個體。您也可以檢視在轉錄輸出 word-for-word 部分中編輯的 PII 類型。如需了解輸出範例,請參閱 編輯輸出的範例 (批次處理)

美國英文 () 和美國西班牙文 (en-US) 可使用批次轉錄進行編輯。es-US修訂與語言識別不相容。

已編輯和未編輯的成績單都儲存在相同的輸出值區中。 Amazon S3 Amazon Transcribe 將它們存儲在您指定的存儲桶中,或者存儲在服務管理的默認 Amazon S3 值區中。

Amazon Transcribe 可識別批次轉錄的 PII 類型
PII 類型 描述
ADDRESS

實體地址,例如 100 Main Street, Anytown, USASuite #12, Building 123。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區、鄰里等。

ALL

修訂或識別此表格中列出的所有 PII 類型。

BANK_ACCOUNT_NUMBER

美國銀行帳戶號碼 這些通常介於 10-12 位數間,但是僅存在最後 4 位數字時, Amazon Transcribe 也可以識別銀行帳戶號碼。

BANK_ROUTING

美國銀行帳戶的分行代碼。這些通常長 9 位數字,但是只有最後 4 位數字存在時, Amazon Transcribe 也可以識別路由號碼。

CREDIT_DEBIT_CVV

VISA 上存在的 3 位數信用卡驗證碼(CVV) MasterCard,以及發現信用卡和借記卡。在美國運通信用卡或簽帳卡,是一個 4 位數的數字代碼。

CREDIT_DEBIT_EXPIRY

信用卡或簽帳卡到期日 該數字通常為 4 位數,格式為月/年或 MM/YY。例如, Amazon Transcribe 可以識別到期日期,例如 2021 年 1 月 21 日、2021 年 1 月和 1 月

CREDIT_DEBIT_NUMBER

信用卡或簽帳卡號碼。這些數字的長度可以從 13 到 16 位數不等,但是當僅存在最後 4 位數字時, Amazon Transcribe 也可以識別信用卡或借記卡號碼。

EMAIL

電子郵件位址,例如 efua.owusu@email.com

NAME

個人的姓名。此實體類型不包含標題,例如先生、太太、小姐或博士 Amazon Transcribe 不會將此實體類型套用至屬於組織或地址一部分的名稱。例如,將多約翰組織 Amazon Transcribe 識別為一個組織,而李四街作為一個地址。

PHONE

電話號碼。此實體類型還包括傳真和呼叫器號碼。

PIN

4 位數的個人識別號碼 (PIN),允許某人存取其銀行帳戶資訊。

SSN

社會安全號碼(SSN)是一個 9 位數的號碼,發給美國公民,永久居民和臨時工作居民。 Amazon Transcribe 當只有最後 4 位數字時,還可以識別社會安全號碼。

您可以使用 AWS Management Console、 AWS CLI或 AWS SDK 開始批次轉錄工作。

  1. 登入 AWS Management Console

  2. 在導覽窗格中,選擇轉錄作業,然後選擇建立作業(右上角)。這將開啟指定作業詳細資訊頁面。

  3. 指定作業詳細資訊頁面中填入想要的欄位後,選擇下一步以前往設定工作 - 選用頁面。您可以在此處找到具 PII 修訂切換的內容移除面板。

    Amazon Transcribe 控制台屏幕截圖:「配置工作」頁面上的「內容刪除窗格」。
  4. PII 修訂後,您可以選擇要修訂的所有 PII 類型。如果您選擇在工作輸出中包含未修訂的文字記錄方塊,您也可以選擇有未修訂的文字記錄。

    Amazon Transcribe 主控台螢幕擷取畫面:顯示 PII 選項的「內容移除」窗格。
  5. 選擇建立作業以執行轉錄作業。

此範例使用指start-transcription-job令和content-redaction參數。如需詳細資訊,請參閱 StartTranscriptionJobContentRedaction

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

以下是使用該start-transcription-job方法的另一個範例,而要求主體會針對該工作編輯 PII。

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

該文件 my-first-redaction-job.json 包含以下請求主體。

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

此範例會使用使用開始工作方法的ContentRedaction引數 AWS SDK for Python (Boto3) 來編輯內容。如需詳細資訊,請參閱 StartTranscriptionJobContentRedaction

如需使用 AWS SDK 的其他範例,包括特定功能、案例和跨服務範例,請參閱本章。使用 Amazon Transcribe 的程式碼範例 AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
注意

批次工作的 PII 編修僅支援以下範圍 AWS 區域:亞太區域 (香港)、亞太區域 (孟買)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、 GovCloud (美國西部)、加拿大 (中東)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (聖倫敦)、歐洲 (巴黎)、中東 (巴林)、美國南東 (保羅) (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡) 和美國西部 (加利佛尼亞北部)。