選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

偵測 PII 實體

焦點模式
偵測 PII 實體 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件的 PII 實體。PII 實體是特定類型的個人識別資訊 (PII)。使用 PII 偵測來尋找 PII 實體或修改文字中的 PII 實體。

尋找 PII 實體

若要尋找文字中的 PII 實體,您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。

您可以使用 主控台或 API 來即時分析單一文件。您的輸入文字最多可包含 100 KB 的 UTF-8 編碼字元。

例如,您可以提交下列輸入文字來尋找 PII 實體:

Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street, Seattle, WA 98109。

輸出包含「Paul Santos」具有類型 NAME、「1111-0000-1111-0000」具有類型 CREDIT_DEBIT_NUMBER、「123 Any Street, Seattle, WA 98109」具有類型 的資訊ADDRESS

Amazon Comprehend 會傳回偵測到的 PII 實體清單,每個 PII 實體的資訊如下:

  • 預估偵測到的文字跨度是偵測到的實體類型的機率的分數。

  • PII 實體類型。

  • 文件中 PII 實體的位置,指定為實體開頭和結尾的字元位移。

例如,先前提到的輸入文字會產生下列回應:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

編輯 PII 實體

若要修訂文字中的 PII 實體,您可以使用 主控台或 API 來啟動非同步批次工作。Amazon Comprehend 會傳回每個 PII 實體的輸入文字複本,其中包含修訂。

例如,您可以提交下列輸入文字來修訂 PII 實體:

Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street, Seattle, WA 98109。

輸出檔案包含下列文字:

Hello ***** ******。信用卡帳戶的最新陳述式 ******************* 已郵寄至 *** *** ******* ******** ** *****。

PII 通用實體類型

某些 PII 實體類型是通用的 (非特定於個別國家),例如電子郵件地址和信用卡號碼。Amazon Comprehend 會偵測下列類型的通用 PII 實體:

ADDRESS

實體地址,例如 "100 Main Street, Anytown, USA" 或 "Suite #12, Building 123"。地址可以包含街道、建築物、位置、城市、州、國家/地區、郡、郵遞區號、區域和鄰里等資訊。

AGE

個人的年齡,包括數量和時間單位。例如,在「我 40 歲」一詞中,Amazon Comprehend 將「40 歲」視為年齡。

AWS_ACCESS_KEY

與秘密存取金鑰相關聯的唯一識別符;您可以使用存取金鑰 ID 和秘密存取金鑰以密碼編譯方式簽署程式設計 AWS 請求。

AWS_SECRET_KEY

與存取金鑰相關聯的唯一識別符。您可以使用存取金鑰 ID 和私密存取金鑰,以密碼編譯方式簽署程式設計 AWS 請求。

CREDIT_DEBIT_CVV

VISA、MasterCard 和 Discover 信用卡和簽帳金融卡上存在的三位數卡驗證碼 (CVV)。對於 American Express 信用卡或簽帳金融卡,CVV 是四位數數字代碼。

CREDIT_DEBIT_EXPIRY

信用卡或簽帳卡到期日 此數字通常為四位數,且格式通常是月/年或月/年。Amazon Comprehend 會辨識過期日期,例如 01/21、01/2021 和 2021 年 1 月。

CREDIT_DEBIT_NUMBER

信用卡或簽帳卡號碼。這些數字的長度從 13 到 16 位數不等。不過,Amazon Comprehend 也會在只存在最後四位數字時辨識信用卡或簽帳金融卡號碼。

DATE_TIME

日期可以包含年、月、日、星期或時間。例如,Amazon Comprehend 會將「2020 年 1 月 19 日」或「上午 11 點」視為日期。Amazon Comprehend 將辨識部分日期、日期範圍和日期間隔。它也會辨識幾十年,例如「1990 年代」。

DRIVER_ID

指派給駕照的號碼,這是官方文件,允許個人在公有道路上操作一或多個機動車輛。駕照號碼由英數字元組成。

EMAIL

電子郵件地址,例如 marymajor@email.com。

INTERNATIONAL_BANK_ACCOUNT_NUMBER

國際銀行帳號在每個國家都有特定的格式。請參閱 https://www.iban.com/structure

IP_ADDRESS

IPv4 地址,例如 198.51.100.0。

LICENSE_PLATE

車輛車牌是由註冊車輛所在的州或國家/地區核發。客車的格式通常為 5 到 8 位數,由大寫字母和數字組成。格式會根據發行狀態或國家/地區而有所不同。

MAC_ADDRESS

媒體存取控制 (MAC) 地址是指派給網路介面控制器 (NIC) 的唯一識別符。

NAME

個人的姓名。此實體類型不包含標題,例如 Dr.、Mr.、Mrs. 或 Miss。Amazon Comprehend 不會將此實體類型套用至屬於組織或地址的名稱。例如,Amazon Comprehend 將 "John Doe Organization" 視為組織,並會將 "Jane Doe Street" 視為地址。

PASSWORD

用作密碼的英數字串,例如 "*very20special#pass*"。

PHONE

電話號碼。此實體類型還包括傳真和呼叫器號碼。

PIN 碼

四位數的個人識別號碼 (PIN),您可以使用它來存取您的銀行帳戶。

SWIFT_CODE

SWIFT 代碼是銀行識別符代碼 (BIC) 的標準格式,用於指定特定的銀行或分支。銀行使用這些代碼進行匯款,例如國際電匯。

SWIFT 代碼由八個或 11 個字元組成。11 位數代碼是指特定的分支,而 8 位數代碼 (或結尾為 'XXX' 的 11 位數代碼) 是指總公司或主要公司。

URL

Web 地址,例如 www.example.com。

USERNAME

識別帳戶的使用者名稱,例如登入名稱、螢幕名稱、暱稱或控點。

VEHICLE_IDENTIFICATION_NUMBER

車輛識別號碼 (VIN) 可唯一識別車輛。ISO 3779 規格中定義了 VIN 內容和格式。每個國家都有 VINs 的特定代碼和格式。

國家特定 PII 實體類型

有些 PII 實體類型是國家特定的,例如護照號碼和其他政府發行的 ID 號碼。Amazon Comprehend 會偵測下列類型的國家/地區特定 PII 實體:

CA_HEALTH_NUMBER

Canadian Health Service Number 是 10 位數的唯一識別符,個人存取醫療保健福利時需要此識別符。

CA_SOCIAL_INSURANCE_NUMBER

加拿大社會保險號碼 (SIN) 是九位數的唯一識別符,個人存取政府計劃和利益時需要此識別符。

SIN 格式為三位數的三組,例如 123-456-789。SIN 可以透過稱為 Luhn 演算法的簡單檢查位數程序進行驗證。

IN_AADHAAR

Indian Aadhaar 是由印度政府核發給印度居民的 12 位數唯一識別號碼。Aadhaar 格式在第四個和第八個數字之後有空格或連字號。

IN_NREGA

印度國家農村就業保證法 (NREGA) 號碼包含兩個字母,後面接著 14 個數字。

IN_PERMANENT_ACCOUNT_NUMBER

印度永久帳戶號碼是由所得稅部門發行的 10 位數唯一英數字元號碼。

IN_VOTER_NUMBER

印度選民 ID 由三個字母組成,後面接七個數字。

UK_NATIONAL_HEALTH_SERVICE_NUMBER

UK National Health Service Number 是 10-17 位數字,例如 485 777 3456。目前的系統格式化 10 位數的數字,並在第三位數和第六位數之後加上空格。最後一個數字是偵測錯誤的檢查總和。

17 位數格式在第 10 位數和第 13 位數之後有空格。

UK_NATIONAL_INSURANCE_NUMBER

UK National Insurance Number (NINO) 可讓個人存取 National Insurance (社會安全) 利益。它也用於英國稅務系統中的某些目的。

數字為九位數,開頭為兩個字母,後面接六個數字和一個字母。NINO 可以在兩個字母後面加上空格或破折號,並在第二個、空格和第六個數字後面加上格式。

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

UK Unique Taxpayer Reference (UTR) 是識別納稅人或企業的 10 位數號碼。

BANK_ACCOUNT_NUMBER

美國銀行帳號,通常為 10 到 12 位數。Amazon Comprehend 也會在僅存在最後四位數字時辨識銀行帳戶號碼。

BANK_ROUTING

美國銀行帳戶的分行代碼。這通常為九位數,但 Amazon Comprehend 也會在僅出現最後四位數時識別路由號碼。

PASSPORT_NUMBER

美國護照號碼。護照號碼範圍為 6 到 9 個英數字元。

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

美國個人納稅人識別號碼 (ITIN) 是以「9」開頭的九位數號碼,並包含「7」或「8」作為第四位數。ITIN 可以用空格或破折號格式化,以第三個數字結尾。

SSN

美國社會安全號碼 (SSN) 是核發給美國公民、永久居民和臨時工作居民的九位數號碼。當只有最後四位數字時,Amazon Comprehend 也會辨識社會安全號碼。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。