Detect PII transform は、データソース内の個人識別情報 (PII) を識別します。エンティティを選択し、データのスキャン方法、Detect PII transform によって識別されてきた PII エンティティで何を行うかを識別します。
Detect PII transform は、定義したエンティティ、または AWS によって事前定義されたエンティティを検出、マスク、削除する機能を提供します。これにより、コンプライアンスを高め、責任を軽減できます。例えば、個人を特定でき読み取りが可能な情報がデータ内に存在しないことを確認した上で、固定文字列の社会保障番号 (例: xxx-xx-xxxx)、電話番号、または住所をマスクすることが考えられます。
AWS Glue Studio の外部で機密データを使用するには、「AWS Glue Studio 外での機密データ検出の使用」を参照してください。
データのスキャン方法の選択
データセットをスキャンして個人を特定できる情報 (PII) などの機密データを探す際に、各行で PII を検出するか、または PII データを含む列を検出するかを選択できます。

Detect PII in each cell を選択する場合、データソース内のすべての行をスキャンすることを選択しています。これは、PII エンティティを識別するための包括的なスキャンです。
Detect fields containing PII を選択する場合、PII エンティティの行のサンプルをスキャンすることを選択しています。これは、PII エンティティが見つかったフィールドを特定しながら、コストとリソースを低く抑える方法です。
PII を含むフィールドを検出することを選択した場合、行の一部をサンプリングすることで、コストを削減し、パフォーマンスを向上させることができます。このオプションを選択すると、追加のオプションを指定できます。
-
Sample portion: これにより、サンプリングする行の割合を指定できます。例えば、50 と入力すると、PII エンティティのためにスキャンされた行の 50% を指定したいことになります。
-
Detection threshold: これにより、列全体が PII エンティティを持つものとして識別されるように、PII エンティティを含む行の割合を指定できます。例えば、10 と入力した場合、フィールドに PII エンティティである米国電話機があると識別されるためには、スキャンされる行の PII エンティティの US Phone の数が 10% 以上になるように指定します。PII エンティティを含む行の割合が 10% 未満の場合、そのフィールドに PII エンティティ (US Phone) が含まれているというラベル付けできません。
検出する PII エンティティの選択
[Detect PII in each cell] (各セルの PII を検出する) を選択した場合は、次の 3 つのオプションのいずれかを選択できます。
-
利用可能なすべての PII パターン - これには AWS エンティティが含まれます。
-
カテゴリを選択する - カテゴリを選択すると、PII パターンには、選択したカテゴリのパターンが自動的に含まれます。
-
特定のパターンを選択する - 選択したパターンのみが検出されます。
マネージド機密データタイプの全リストについては、「Managed data types」を参照してください。
利用可能なすべての PII パターンから選択する
[All available PII patterns] (使用可能なすべての PII パターン) を選択する場合は、AWS で事前定義されたエンティティを選択します。エンティティは、1 つでも、複数でも、すべてでも選択できます。

カテゴリを選択する
PII パターンとして [Select categories] (カテゴリを選択する) を選択して検出する場合は、ドロップダウンメニューのオプションから選択します。一部のエンティティは複数のカテゴリに属する場合があることに注意してください。例えば、[Person's name] (人名) は、[Universal] (ユニバーサル) および [HIPAA] カテゴリに属するエンティティです。
-
[Universal] (ユニバーサル) (例: [Email] (E メール)、[Credit Card] (クレジットカード))
-
[HIPAA] (例: [US driving license] (米国の運転免許証)、[Healthcare Common Procedure Coding System (HCPCS) code] (Healthcare Common Procedure Coding System (HCPCS) コード))
-
[Networking] (ネットワーキング) (例: [IP Address] (IP アドレス)、[MAC Address] (MAC アドレス))
アルゼンチン
オーストラリア
オーストリア
ベルギー
ボスニア
ブルガリア
カナダ
チリ
コロンビア
クロアチア
キプロス
チェコ共和国
デンマーク
エストニア
フィンランド
フランス
ドイツ
ギリシャ
ハンガリー
アイルランド
韓国
日本
メキシコ
オランダ
ニュージーランド
ノルウェー
ポルトガル
ルーマニア
シンガポール
スロバキア
スロベニア
スペイン
スウェーデン
スイス
トルコ
ウクライナ
アメリカ
英国
ベネズエラ
特定のパターンを選択する
検出する PII パターンとして [Select specific patterns] (特定のパターンを選択する) を選択すると、作成済みのパターンのリストから検索や参照したり、新しい検出エンティティパターンを作成したりできます。
次のステップでは、機密データを検出する新しいカスタムパターンを作成する方法について説明します。カスタムパターンの名前を入力して、カスタムパターンを作成し、正規表現を追加して、オプションでコンテキスト単語を定義します。
-
新しいパターンを作成するには、[Create new] (新規作成) ボタンをクリックします。
-
[Create detection entity] (検出エンティティの作成) ページで、エンティティ名と正規表現を入力します。正規表現 (Regex) は、AWS Glue がエンティティを照合するために使用するものです。
-
[Validate] (検証) をクリックします。検証が成功すると、文字列が有効な正規表現であることを示す確認メッセージが表示されます。検証に失敗した場合は、文字列が適切なフォーマット、および許容される文字リテラル、演算子、構文のいずれかに準拠していないことを示すメッセージが表示されます。
-
正規表現にコンテキスト単語を追加することもできます。コンテキスト単語によって一致する可能性が高くなることがあります。コンテキスト単語は、フィールド名がエンティティを説明していない場合に有効です。例えば、社会保障番号には「SSN」または「SS」という名前が付けられます。これらのコンテキスト単語を追加すると、エンティティの照合に役立ちます。
-
[Create] (作成) をクリックして、検出エンティティを作成します。作成されたエンティティは、AWS Glue Studio コンソールに表示されます。左側のナビゲーションメニューの [Detection entities] (検出エンティティ) をクリックします。
[Detection entities] (検出エンティティ) ページから、検出エンティティの編集、削除、作成ができます。検索フィールドを使用してパターンを検索することもできます。
検出感度のレベルの指定
機密データの検出を使用する場合の感度レベルを設定できます。
-
[高] – (デフォルト) より高いレベルの感度が必要なユースケースのために、より多くのエンティティを検出します。2023 年 11 月よりも後に作成されたすべての AWS Glue ジョブは、この設定を自動的にオプトインします。
-
[低] - 検出するエンティティの数を減らし、誤検知を減らします。
![スクリーンショットは、グローバル検出感度オプションを示しています。精度を高める [低] オプションもありますが、これはより厳密であり、全体的な検出数が少なくなる可能性があります。2 つ目のオプションは高感度の設定です。これはより広範囲の検出を目的としており、より高度な PII 検出が必要な場合に適しています。](images/detect-sensitve-data-sensitvity-new.png)
特定された PII データによる対処方法の選択
データソース全体で PII を検出することを選択した場合は、適用するグローバルアクションを選択できます。
-
Enrich data with detection results: 各セルで Detect PII を選択した場合、検出されたエンティティを新しい列に保存できます。
-
Redact detected text: 検出された PII 値を、オプションの置換テキスト入力フィールド中に指定した文字列に置き換えることができます。文字列を指定しない場合、検出された PII エンティティは '*******' に指定されます。
-
[検出されたテキストを部分的にマスキング]: 検出された PII の値の一部を、選択した文字列に置き換えることができます。可能なオプションは 2 つあります。すなわち、端をマスキングしないままにするか、または明示的な正規表現パターンを指定してマスキングするかのいずれかです。AWS Glue 2.0 では、この機能は使用できません。
-
Apply cryptographic hash: 検出された PII 値を SHA-256 暗号化ハッシュ関数に渡し、その値を関数からの出力に置き換えることができます。

AWS Glue バージョン 2.0 と 3.0 以降の相違点
AWS Glue 2.0 ジョブは、補足列の各列について検出された PII 情報を含む新しい DataFrame を返します。マスキングまたはハッシュ作業は、ビジュアルタブの AWS Glue スクリプト内に表示されます。
AWS Glue 3.0 および 4.0 ジョブは、これと同じ補足列を持つ新しい DataFrame を返します。「actionUsed」の新しいキーが存在し、DETECT
、REDACT
、PARTIAL_REDACT
、または SHA256_HASH
のいずれかになります。マスキングアクションが選択されている場合、DataFrame は機密データをマスキングした状態でデータを返します。
詳細なアクションオーバーライドの追加
追加の検出およびアクションの設定を、詳細なアクションオーバーライドテーブルに追加できます。これにより、次のことが可能になります。
-
[検出から特定の列を包含または除外] – データソース上の推論されたスキーマによって、使用可能な列がテーブルに入力されます。
-
[グローバルアクションを使用するよりも詳細な特定の設定を指定] – 例えば、エンティティタイプごとに異なるマスキングテキストの設定を指定できます。
-
[グローバルアクションとは異なるアクションを指定] – 異なる機密データタイプに異なるアクションを適用する場合は、ここで実行できます。2 つの異なるその場編集アクション (マスキングとハッシュ) は同じ列では使用できませんが、検出はいつでも使用できることに留意してください。
