本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
偵測PII圖元
您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件中的PII實體。PII實體是個人識別資訊的一種特定類型 (PII)。使用PII偵測來尋找PII實體或標記文字中的PII實體。
尋找PII實體
若要尋找文字中的PII實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。
您可以使用主控台或API對單一文件進行即時分析。您的輸入文字最多可包含 100 KB UTF -8 個編碼字元。
例如,您可以提交下列輸入文字來尋找PII實體:
你好保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。
輸出包括「保羅·桑托斯」具有類型的信息NAME
,「1111-0000-1111-0000」具有該類型,並且「123 任何街道,西雅圖CREDIT_DEBIT_NUMBER
,華盛頓州 98109」具有類型。ADDRESS
Amazon Comprehend 會傳回偵測到的PII實體清單,其中包含每個PII實體的下列資訊:
-
估計偵測到的文字範圍是偵測到的圖元類型之可能性的分數。
-
實PII體類型。
-
PII實體在文件中的位置,指定為實體開頭和結尾的字元位移。
例如,先前提到的輸入文字會產生下列回應:
{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }
編輯實PII體
若要編輯文字中的PII實體,您可以使用主控台或啟動非同步批次工作。APIAmazon Comprehend 會傳回輸入文字的副本,其中包含每個實體的密文。PII
例如,您可以提交下列輸入文字來編輯實PII體:
你好保羅·桑托斯。您的信用卡帳戶的最新月結單已郵寄至華盛頓州西雅圖市任意街 123 號。
輸出檔案包含下列文字:
你好 ***** ******。您信用卡戶口最新的月結單 *********************** 已郵寄至 *** *********************。
PII通用圖元類型
某些PII實體類型是通用的(不特定於個別國家/地區),例如電子郵件地址和信用卡號碼。亞馬遜偵測到下列類型的通用PII實體:
- ADDRESS
-
物理地址,例如「100 大街,任何城鎮USA」或「套房 #12,123 號樓」。地址可以包括街道、建築物、位置、城市、州、國家、縣、郵遞區號、分區和鄰近地區等資訊。
- AGE
-
個人的年齡,包括數量和時間單位。例如,在「我 40 歲」這句話中,Amazon Comprehend 承認「40 歲」是一個年齡。
- AWS_ACCESS_KEY
-
與秘密存取金鑰相關聯的唯一識別碼;您可以使用存取金鑰 ID 和秘密存取金鑰以程式設計方式簽署 AWS 請求密碼編譯。
- AWS_SECRET_KEY
-
與存取金鑰相關聯的唯一識別碼。您可以使用訪問密鑰 ID 和秘密訪問密鑰以編程方式進行簽名 AWS 請求密碼編譯。
- CREDIT_DEBIT_CVV
-
一個三位數的卡片驗證碼 (CVV),出現在 VISA MasterCard, 和發現信用卡和借記卡。對於美國運通信用卡或簽帳金融卡,CVV是一個四位數的數字代碼。
- CREDIT_DEBIT_EXPIRY
-
信用卡或簽帳卡到期日 此數字通常為四位數,通常格式為月/年或 MM/YY。Amazon Comprehend 到期日期,例如 2021 年 1 月 21 日,1 月和 2021 年 1 月。
- CREDIT_DEBIT_NUMBER
-
信用卡或簽帳卡號碼。這些數字的長度可以從 13 到 16 位數不等。不過,當只有最後四位數字出現時,Amazon Comprehend 也會辨識信用卡或簽帳金融卡號碼。
- DATE_TIME
-
日期可以包括年、月、日、星期幾或一天中的時間。例如,Amazon Comprehend 認為「2020 年 1 月 19 日」或「上午 11 點」作為日期。Amazon Comprehend 將識別部分日期、日期範圍和日期間隔。它還將承認數十年,例如「1990 年代」。
- DRIVER_ID
-
分配給駕駛執照的號碼,這是一份正式文件,允許個人在公共道路上操作一輛或多輛機動車輛。駕照號碼由英數字元組成。
-
電子郵件地址,例如 marymajor@email.com。
- INTERNATIONAL_BANK_ACCOUNT_NUMBER
-
國際銀行帳戶號碼在每個國家/地區都有特定的格式。請參閱伊班網站
結構。 - IP_ ADDRESS
-
一個IPv4地址,如 198.51.100.0。
- LICENSE_PLATE
-
車輛的車牌是由車輛註冊的州或國家簽發的。乘用車的格式通常為五到八位數字,由大寫字母和數字組成。格式取決於發行的州或國家的位置。
- MAC_ADDRESS
-
媒體存取控制 (MAC) 位址是指派給網路介面控制器 (NIC) 的唯一識別碼。
- NAME
-
個人的姓名。此實體類型不包括標題,例如博士、先生、太太或小姐。Amazon Comprehend 不會將此實體類型套用到屬於組織或地址的名稱。例如,Amazon Comprehend 將「約翰·多伊組織」識別為一個組織,並將「李四街」識別為地址。
- PASSWORD
-
用作密碼的英數字串,例如「*very20 特殊 #pass *」。
- PHONE
-
電話號碼。此實體類型還包括傳真和呼叫器號碼。
- PIN
-
一組四位數字的個人識別號碼 (PIN),您可以使用此號碼存取您的銀行帳戶。
- SWIFT_CODE
-
SWIFT代碼是銀行識別碼 (BIC) 的標準格式,用於指定特定的銀行或分行。銀行使用這些代碼進行匯款,例如國際電匯。
SWIFT代碼由八個或 11 個字元組成。11 位數代碼是指特定分支機構,而 8 位數代碼(或以 'XXX' 結尾的 11 位數代碼)則指總部或主要辦公室。
- URL
-
一個網址,例如:例如。
- USERNAME
-
識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或帳號。
- VEHICLE_IDENTIFICATION_NUMBER
-
車輛識別號碼 (VIN) 可唯一識別車輛。VIN內容和格式在 ISO 3779 規範中定義。每個國家/地區都有特定的代碼和格式VINs。
特定國家實體型態 PII
某些PII實體類型是國家/地區特定的,例如護照號碼和其他政府核發的身份證號碼。Amazon Comprehend 會偵測到下列國家/地區特定PII實體類型:
- 加拿大 _ HEALTH NUMBER
-
加拿大 Health 服務號碼是一個 10 位數的唯一識別碼,個人需要獲得醫療保健福利。
- 加拿大 _ SOCIAL _ INSURANCE NUMBER
-
加拿大社會保險號碼 (SIN) 是九位數的唯一識別碼,個人需要使用政府計劃和福利。
SIN被格式化為三個數字組成的三個群組,例如 123-456-789。A SIN 可以通過稱為 Luhn
算法的簡單檢查數字過程進行驗證。 - 在 _ AADHAAR
-
印度阿德哈爾(Aadhaar)是印度政府向印度居民發出的 12 位唯一識別號碼。Aadhaar 格式的第四個和第八位數字後面有一個空格或連字符。
- 在 _ NREGA
-
印度全國農村就業保證法(NREGA)編號由兩個字母,後跟 14 個數字組成。
- 在 _ _ PERMANENT _ ACCOUNT NUMBER
-
印度永久帳戶號碼是由所得稅部門核發的 10 位數字唯一的字母數字編號。
- 在 _ VOTER NUMBER
-
印度選民身份證由三個字母組成,後跟七個數字。
- 英國 _ NATIONAL _ HEALTH _ SERVICE NUMBER
-
英國國民 Health 服務號碼是一個 10-17 位數字的數字,例如:485 777 3456。目前的系統會將 10 位數字格式化,並在第三位和第六位數字之後加上空格。最後一個數字是偵測錯誤的總和檢查碼。
17 位數字格式在第 10 位和 13 位數字之後有空格。
- 英國 _ NATIONAL _ INSURANCE NUMBER
-
英國國民保險號碼(NINO)為個人提供國民保險(社會安全)福利的機會。它也用於英國稅收制度的某些目的。
數字長度為九位數,以兩個字母開頭,後跟六個數字和一個字母。A NINO 可以用空格或破折號的兩個字母後和第二,第四和第六位數字後進行格式化。
- 英國 _ UNIQUE _ TAXPAYER _ REFERENCE NUMBER
-
英國唯一納稅人參考(UTR)是一個 10 位數字,用於識別納稅人或企業。
- BANK_ACCOUNT_NUMBER
-
美國銀行帳戶號碼,通常長度為 10 至 12 位數字。當只有最後四個數字出現時,Amazon Comprehend 也會識別銀行帳戶號碼。
- BANK_ROUTING
-
美國銀行帳戶的分行代碼。這些通常是九位數的長度,但 Amazon Comprehend 也會在只有最後四個數字出現時識別路由號碼。
- PASSPORT_NUMBER
-
美國護照號碼。護照號碼範圍為六至九個英數字元。
- 美國 _ INDIVIDUAL _ TAX _ IDENTIFICATION NUMBER
-
美國個人納稅人識別號碼 (ITIN) 是一個九位數字,以「9」開頭,並以「7」或「8」作為第四位數字。ITIN可以使用空格或破折號在第三位和第四位數字之後進行格式化。
- SSN
-
美國社會安全號碼 (SSN) 是發給美國公民、永久居民和臨時工作居民的九位數字。當只有最後四位數字出現時,Amazon Comprehend 也會辨識社會安全號碼。