偵測PII圖元 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測PII圖元

您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件中的PII實體。PII實體是個人識別資訊的一種特定類型 (PII)。使用PII偵測來尋找PII實體或標記文字中的PII實體。

尋找PII實體

若要尋找文字中的PII實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。

您可以使用主控台或API對單一文件進行即時分析。您的輸入文字最多可包含 100 KB UTF -8 個編碼字元。

例如,您可以提交下列輸入文字來尋找PII實體:

你好保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出包括「保羅·桑托斯」具有類型的信息NAME,「1111-0000-1111-0000」具有該類型,並且「123 任何街道,西雅圖CREDIT_DEBIT_NUMBER,華盛頓州 98109」具有類型。ADDRESS

Amazon Comprehend 會傳回偵測到的PII實體清單,其中包含每個PII實體的下列資訊:

  • 估計偵測到的文字範圍是偵測到的圖元類型之可能性的分數。

  • 實PII體類型。

  • PII實體在文件中的位置,指定為實體開頭和結尾的字元位移。

例如,先前提到的輸入文字會產生下列回應:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

編輯實PII體

若要編輯文字中的PII實體,您可以使用主控台或啟動非同步批次工作。APIAmazon Comprehend 會傳回輸入文字的副本,其中包含每個實體的密文。PII

例如,您可以提交下列輸入文字來編輯實PII體:

你好保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。

輸出檔案包含下列文字:

你好 ***** ******。您信用卡戶口最新的月結單 *********************** 已郵寄至 *** *********************。

PII通用圖元類型

某些PII實體類型是通用的(不特定於個別國家/地區),例如電子郵件地址和信用卡號碼。亞馬遜偵測到下列類型的通用PII實體:

ADDRESS

物理地址,例如「100 大街,任何城鎮USA」或「套房 #12,123 號樓」。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區和鄰近地區等資訊。

AGE

個人的年齡,包括數量和時間單位。例如,在「我 40 歲」這句話中,Amazon Comprehend 承認「40 歲」是一個年齡。

AWS_ACCESS_KEY

與秘密存取金鑰相關聯的唯一識別碼;您可以使用存取金鑰 ID 和秘密存取金鑰以程式設計方式簽署 AWS 請求密碼編譯。

AWS_SECRET_KEY

與存取金鑰相關聯的唯一識別碼。您可以使用訪問密鑰 ID 和秘密訪問密鑰以編程方式進行簽名 AWS 請求密碼編譯。

CREDIT_DEBIT_CVV

一個三位數的卡片驗證碼 (CVV),出現在 VISA MasterCard, 和發現信用卡和借記卡。對於美國運通信用卡或簽帳金融卡,CVV是一個四位數的數字代碼。

CREDIT_DEBIT_EXPIRY

信用卡或簽帳卡到期日 此數字通常為四位數,通常格式為月/年或 MM/YY。Amazon Comprehend 到期日期,例如 2021 年 1 月 21 日,1 月和 2021 年 1 月。

CREDIT_DEBIT_NUMBER

信用卡或簽帳卡號碼。這些數字的長度可以從 13 到 16 位數不等。不過,當只有最後四位數字出現時,Amazon Comprehend 也會辨識信用卡或簽帳金融卡號碼。

DATE_TIME

日期可以包括年、月、日、星期幾或一天中的時間。例如,Amazon Comprehend 認為「2020 年 1 月 19 日」或「上午 11 點」作為日期。Amazon Comprehend 將識別部分日期、日期範圍和日期間隔。它還將承認數十年,例如「1990 年代」。

DRIVER_ID

分配給駕駛執照的號碼,這是一份正式文件,允許個人在公共道路上操作一輛或多輛機動車輛。駕照號碼由英數字元組成。

EMAIL

電子郵件地址,例如 marymajor@email.com。

INTERNATIONAL_BANK_ACCOUNT_NUMBER

國際銀行帳戶號碼在每個國家/地區都有特定的格式。請參閱伊班網站結構。

IP_ ADDRESS

一個IPv4地址,如 198.51.100.0。

LICENSE_PLATE

車輛的車牌是由車輛註冊的州或國家簽發的。乘用車的格式通常為五到八位數字,由大寫字母和數字組成。格式取決於發行的州或國家的位置。

MAC_ADDRESS

媒體存取控制 (MAC) 位址是指派給網路介面控制器 (NIC) 的唯一識別碼。

NAME

個人的姓名。此實體類型不包括標題,例如博士、先生、太太或小姐。Amazon Comprehend 不會將此實體類型套用到屬於組織或地址的名稱。例如,Amazon Comprehend 將「約翰·多伊組織」識別為一個組織,並將「李四街」識別為地址。

PASSWORD

用作密碼的英數字串,例如「*very20 特殊 #pass *」。

PHONE

電話號碼。此實體類型還包括傳真和呼叫器號碼。

PIN

一組四位數字的個人識別號碼 (PIN),您可以使用此號碼存取您的銀行帳戶。

SWIFT_CODE

SWIFT代碼是銀行識別碼 (BIC) 的標準格式,用於指定特定的銀行或分行。銀行使用這些代碼進行匯款,例如國際電匯。

SWIFT代碼由八個或 11 個字元組成。11 位數代碼是指特定分支機構,而 8 位數代碼(或以 'XXX' 結尾的 11 位數代碼)則指總部或主要辦公室。

URL

一個網址,例如:例如。

USERNAME

識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或帳號。

VEHICLE_IDENTIFICATION_NUMBER

車輛識別號碼 (VIN) 可唯一識別車輛。VIN內容和格式在 ISO 3779 規範中定義。每個國家/地區都有特定的代碼和格式VINs。

特定國家實體型態 PII

某些PII實體類型是國家/地區特定的,例如護照號碼和其他政府核發的身份證號碼。Amazon Comprehend 會偵測到下列國家/地區特定PII實體類型:

加拿大 _ HEALTH NUMBER

加拿大 Health 服務號碼是一個 10 位數的唯一識別碼,個人需要獲得醫療保健福利。

加拿大 _ SOCIAL _ INSURANCE NUMBER

加拿大社會保險號碼 (SIN) 是九位數的唯一識別碼,個人需要使用政府計劃和福利。

SIN被格式化為三個數字組成的三個群組,例如 123-456-789。A SIN 可以通過稱為 Luhn 算法的簡單檢查數字過程進行驗證。

在 _ AADHAAR

印度阿德哈爾(Aadhaar)是印度政府向印度居民發出的 12 位唯一識別號碼。Aadhaar 格式的第四個和第八位數字後面有一個空格或連字符。

在 _ NREGA

印度全國農村就業保證法(NREGA)編號由兩個字母,後跟 14 個數字組成。

在 _ _ PERMANENT _ ACCOUNT NUMBER

印度永久帳戶號碼是由所得稅部門核發的 10 位數字唯一的字母數字編號。

在 _ VOTER NUMBER

印度選民身份證由三個字母組成,後跟七個數字。

英國 _ NATIONAL _ HEALTH _ SERVICE NUMBER

英國國民 Health 服務號碼是一個 10-17 位數字的數字,例如:485 777 3456。目前的系統會將 10 位數字格式化,並在第三位和第六位數字之後加上空格。最後一個數字是偵測錯誤的總和檢查碼。

17 位數字格式在第 10 位和 13 位數字之後有空格。

英國 _ NATIONAL _ INSURANCE NUMBER

英國國民保險號碼(NINO)為個人提供國民保險(社會安全)福利的機會。它也用於英國稅收制度的某些目的。

數字長度為九位數,以兩個字母開頭,後跟六個數字和一個字母。A NINO 可以用空格或破折號的兩個字母後和第二,第四和第六位數字後進行格式化。

英國 _ UNIQUE _ TAXPAYER _ REFERENCE NUMBER

英國唯一納稅人參考(UTR)是一個 10 位數字,用於識別納稅人或企業。

BANK_ACCOUNT_NUMBER

美國銀行帳戶號碼,通常長度為 10 至 12 位數字。當只有最後四個數字出現時,Amazon Comprehend 也會識別銀行帳戶號碼。

BANK_ROUTING

美國銀行帳戶的分行代碼。這些通常是九位數的長度,但 Amazon Comprehend 也會在只有最後四個數字出現時識別路由號碼。

PASSPORT_NUMBER

美國護照號碼。護照號碼範圍為六至九個英數字元。

美國 _ INDIVIDUAL _ TAX _ IDENTIFICATION NUMBER

美國個人納稅人識別號碼 (ITIN) 是一個九位數字,以「9」開頭,並以「7」或「8」作為第四位數字。ITIN可以使用空格或破折號在第三位和第四位數字之後進行格式化。

SSN

美國社會安全號碼 (SSN) 是發給美國公民、永久居民和臨時工作居民的九位數字。當只有最後四位數字出現時,Amazon Comprehend 也會辨識社會安全號碼。