カスタムデータ識別子の作成 - Amazon Macie

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタムデータ識別子の作成

カスタムデータ識別子は、機密データを検出するために定義する基準のセットです。カスタムデータ識別子を作成するときは、S3 オブジェクトで一致させるテキストパターンを定義する正規表現 (正規表現 ) を指定します。また、結果を調整する文字シーケンスと近接ルールを指定することもできます。文字シーケンスは、正規表現に一致するテキストに近接する必要がある単語またはフレーズであるキーワード 、または結果から除外する単語またはフレーズである単語 を無視できます。カスタムデータ識別子を使用すると、Amazon Macie が提供するマネージドデータ識別子を補完し、組織の特定のシナリオ、知的財産、または専有データを反映する機密データを検出できます。

例えば、多くの企業では、従業員 に特定の構文がありますIDs。このような構文の 1 つは、従業員がフルタイム (F ) の従業員かパートタイム (P ) の従業員かを示す大文字で、ハイフン (–) が続き、従業員を識別する 8 桁のシーケンスが続きます。例: フルタイム従業員の場合は F–12345678、パートタイム従業員の場合は P–87654321。この構文IDsを使用する従業員を検出するカスタムデータ識別子を作成する場合は、次の正規表現を使用できます。 [A-Z]-\d{8}分析を絞り込み、誤検出を回避するには、キーワード (employeeemployee ID) と最大一致距離 20 文字を使用するように識別子を設定することもできます。これらの基準では、テキストが従業員 ID または従業員 ID というキーワードの後にあり、すべてのテキストがいずれかのキーワードから 20 文字以内の場合にのみ、正規表現に一致するテキストが結果に含まれます。

キーワードが機密データの検索や誤検出の回避にどのように役立つかについては、以下の動画をご覧ください。

検出基準に加えて、オプションで、カスタムデータ識別子が生成する検出結果のカスタム重要度設定を指定できます。重要度は、識別子の検出基準に一致するテキストの出現回数に基づいて設定できます。これらの設定を指定しない場合、Macie は識別子が生成するすべての検出結果に Medium 重要度を自動的に割り当てます。重要度は、識別子の検出基準に一致するテキストの出現回数に基づいて変化しません。

これらの設定やその他の設定の詳細については、「」を参照してくださいカスタムデータ識別子の設定オプション

カスタムデータ識別子を作成するには

Amazon Macie コンソールを使用してカスタムデータ識別子を作成するには、次のステップに従います。プログラムでカスタムデータ識別子を作成するには、Amazon Macie の CreateCustomDataIdentifierオペレーションを使用しますAPI。

  1. で Amazon Macie コンソールを開きますhttps://console.aws.amazon.com/macie/

  2. ナビゲーションペインの 設定 の下で、カスタムデータ識別子 を選択します。

  3. 作成 を選択します。

  4. 名前 では、カスタムデータ識別子の名前を入力します。名前には最大 128 文字を含めることができます。

  5. 説明 には、オプションでカスタムデータ識別子の簡単な説明を入力します。説明には最大 512 文字を含めることができます。

    注記

    カスタムデータ識別子の名前または説明に機密データを含めないでください。Macie で実行できるアクションによっては、アカウントの他のユーザーが名前や説明を表示できる場合があります。

  6. 正規表現 では、一致するテキストパターンを定義する正規表現 (正規表現) を入力します。正規表現には最大 512 文字を含めることができます。

    Macie は、Perl Compatible Regular Expressions (PCRE) ライブラリ が提供するパターン構文のサブセットをサポートしています。詳細については、「カスタムデータ識別子の検出基準」を参照してください。

  7. キーワード では、オプションで最大 50 文字のシーケンス (カンマで区切る) を入力して、正規表現パターンに一致するテキストに近接する必要がある特定のテキストを定義します。

    Macie は、テキストが正規表現パターンと一致し、テキストがこれらのキーワードのいずれかの最大一致距離内にある場合にのみ、結果に出現を含めます。各キーワードには 3~90UTF~8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。

  8. 単語 を無視する場合は、オプションで、結果から除外する特定のテキストを定義する 10 文字のシーケンス (カンマで区切る) を入力します。

    Macie は、テキストが正規表現パターンと一致しても、これらの無視する単語のいずれかが含まれている出現を結果から除外します。各無視ワードには 4~90UTF~8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

  9. 最大一致距離 には、オプションで、キーワードの末尾と正規表現パターンに一致するテキストの末尾の間に存在できる最大文字数を入力します。

    Macie は、テキストが正規表現パターンと一致し、テキストが完全なキーワードからこの距離内にある場合にのみ、結果に出現を含めます。距離は 1〜300 文字です。デフォルトの距離は 50 文字です。

  10. 重要度 では、カスタムデータ識別子が生成する機密データの検出結果の重要度を決定する方法を選択します。

    • 重要度をすべての結果に自動的に割り当てるには、任意の数の一致に対して中重要度を使用する (デフォルト) を選択します。このオプションでは、影響を受ける S3 オブジェクトに検出基準と一致するテキストが 1 つ以上含まれている場合、Macie は検出結果に自動的に重大度中を割り当てます。

    • 指定したカスタム頻度しきい値に基づいて重要度を割り当てるには、カスタム設定を使用して重要度を判断する を選択します。次に、頻度しきい値 および 重要度レベル オプションを使用して、選択した重要度で結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数を指定します。

      Macie がサポートする重要度レベルごとに 1 つずつ、 (最も重要度が低い)、 (最も重要度が高い) の 3 つの出現しきい値を指定できます。1 を超える値を指定する場合、しきい値は重要度で昇順 ( から に移動) である必要があります。S3 オブジェクトに含まれる出現の回数が最小指定しきい値よりも少ない場合、Macie は結果を作成しません。

  11. (オプショナル) タグタグを追加 を選択し、カスタムデータ識別子に割り当てるタグを 50 個まで入力します。

    タグは、特定のタイプの AWS リソースを定義して割り当てるラベルです。各タグは、必要なタグキーとオプションのタグ値で設定されています。タグを使用することで、目的、所有者、環境、その他の条件など、さまざまな方法でリソースを分類および管理できます。詳細については、Macie リソースのタグ付けを参照してください。

  12. (オプショナル) 評価 では、サンプルデータ ボックスに最大 1,000 文字を入力し、テスト を選択して検出条件をテストします。Macie はサンプルデータを評価し、基準に一致するテキストの出現回数をレポートします。基準を調整して最適化するために、このステップを何回でも繰り返すことができます。

    注記

    カスタムデータ識別子を保存する前に、検出基準をテストして調整することを強くお勧めします。カスタムデータ識別子は、機密データ検出ジョブで使用されるため、カスタムデータ識別子は保存後に編集することはできません。これにより、実施するデータプライバシーと保護の監査または調査に関する機密データの調査結果と検出結果のイミュータブルな履歴を確実に保持できます。

  13. 完了したら、送信 を選択します。

Macie は設定をテストし、正規表現をコンパイルできることを確認します。設定または正規表現に問題がある場合、Macie は問題を説明するエラーを表示します。問題を解決したら、カスタムデータ識別子を保存できます。その後、 識別子を使用するように機密データ検出ジョブを作成および設定したり、自動機密データ検出 の設定に 識別子を追加したりできます