Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

AWS Glue Studio 外での機密データ検出の使用

フォーカスモード
AWS Glue Studio 外での機密データ検出の使用 - AWS Glue

AWS Glue Studio では機密データを検出することができますが、AWS Glue Studio 外でこの機密データ検出機能を使用することも可能です。

マネージド機密データタイプの全リストについては、「Managed data types」を参照してください。

AWS マネージド PII タイプを使用した機密データの検出

AWS Glue は、AWS Glue ETL ジョブで 2 つの API を提供します。これらは、detect() および classifyColumns() です。

detect(frame: DynamicFrame, entityTypesToDetect: Seq[String], outputColumnName: String = "DetectedEntities", detectionSensitivity: String = "LOW"): DynamicFrame detect(frame: DynamicFrame, detectionParameters: JsonOptions, outputColumnName: String = "DetectedEntities", detectionSensitivity: String = "LOW"): DynamicFrame classifyColumns(frame: DynamicFrame, entityTypesToDetect: Seq[String], sampleFraction: Double = 0.1, thresholdFraction: Double = 0.1, detectionSensitivity: String = "LOW")

AWS マネージド PII タイプとカスタムエンティティタイプを識別するには、detect() API を使用できます。検出結果が含まれる新しい列が自動的に作成されます。classifyColumns() API は、キーが列名で値が検出されたエンティティタイプのリストになっているマップを返します。SampleFraction は、PII エンティティをスキャンしているときにサンプリングするためのデータの割合を示し、ThresholdFraction は、列が PII データとして識別されるために満たされる必要があるデータの割合を示します。

行レベルの検出

この例では、ジョブが detect()classifyColumns() API を使用して以下のアクションを実行しています。

  • Amazon S3 バケットからデータを読み込み、dynamicFrame に変換する

  • dynamicFrame 内にある「Email」と「Credit Card」のインスタンスを検出する

  • 元の値と、各行の検出結果が網羅された 1 つの列が含まれる dynamicFrame を返す

  • 返された dynamicFrame を別の Amazon S3 パスに書き込む

import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.MappingSpec import com.amazonaws.services.glue.errors.CallSite import com.amazonaws.services.glue.util.GlueArgParser import com.amazonaws.services.glue.util.Job import com.amazonaws.services.glue.util.JsonOptions import org.apache.spark.SparkContext import scala.collection.JavaConverters._ import com.amazonaws.services.glue.ml.EntityDetector object GlueApp { def main(sysArgs: Array[String]) { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray) Job.init(args("JOB_NAME"), glueContext, args.asJava) val frame= glueContext.getSourceWithFormat(formatOptions=JsonOptions("""{"quoteChar": "\"", "withHeader": true, "separator": ","}"""), connectionType="s3", format="csv", options=JsonOptions("""{"paths": ["s3://pathToSource"], "recurse": true}"""), transformationContext="AmazonS3_node1650160158526").getDynamicFrame() val frameWithDetectedPII = EntityDetector.detect(frame, Seq("EMAIL", "CREDIT_CARD")) glueContext.getSinkWithFormat(connectionType="s3", options=JsonOptions("""{"path": "s3://pathToOutput/", "partitionKeys": []}"""), transformationContext="someCtx", format="json").writeDynamicFrame(frameWithDetectedPII) Job.commit() } }

詳細なアクションによる行レベルの検出

この例では、ジョブが detect() API を使用して次のアクションを実行しています。

  • Amazon S3 バケットからデータを読み取り、dynamicFrame に変換する

  • dynamicFrame 内の「USA_PTIN」、「BANK_ACCOUNT]、「USA_SSN」、「USA_PASSPORT_NUMBER」、および「PHONE_NUMBER」の機密データタイプの検出

  • 変更およびマスキングされた値と、各行の検出結果が網羅された 1 つの列が含まれる dynamicFrame を返す

  • 返された dynamicFrame を別の Amazon S3 パスに書き込む

上記の detect() API とは対照的に、これはエンティティタイプを検出するための詳細なアクションを使用します。詳細については、「detect() を使用する検出パラメータ」を参照してください。

import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.MappingSpec import com.amazonaws.services.glue.errors.CallSite import com.amazonaws.services.glue.util.GlueArgParser import com.amazonaws.services.glue.util.Job import com.amazonaws.services.glue.util.JsonOptions import org.apache.spark.SparkContext import scala.collection.JavaConverters._ import com.amazonaws.services.glue.ml.EntityDetector object GlueApp { def main(sysArgs: Array[String]) { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray) Job.init(args("JOB_NAME"), glueContext, args.asJava) val frame = glueContext.getSourceWithFormat(formatOptions=JsonOptions("""{"quoteChar": "\"", "withHeader": true, "separator": ","}"""), connectionType="s3", format="csv", options=JsonOptions("""{"paths": ["s3://pathToSource"], "recurse": true}"""), transformationContext="AmazonS3_node_source").getDynamicFrame() val detectionParameters = JsonOptions( """ { "USA_DRIVING_LICENSE": [{ "action": "PARTIAL_REDACT", "sourceColumns": ["Driving License"], "actionOptions": { "matchPattern": "[0-9]", "redactChar": "*" } }], "BANK_ACCOUNT": [{ "action": "DETECT", "sourceColumns": ["*"] }], "USA_SSN": [{ "action": "SHA256_HASH", "sourceColumns": ["SSN"] }], "IP_ADDRESS": [{ "action": "REDACT", "sourceColumns": ["IP Address"], "actionOptions": {"redactText": "*****"} }], "PHONE_NUMBER": [{ "action": "PARTIAL_REDACT", "sourceColumns": ["Phone Number"], "actionOptions": { "numLeftCharsToExclude": 1, "numRightCharsToExclude": 0, "redactChar": "*" } }] } """ ) val frameWithDetectedPII = EntityDetector.detect(frame, detectionParameters, "DetectedEntities", "HIGH") glueContext.getSinkWithFormat(connectionType="s3", options=JsonOptions("""{"path": "s3://pathToOutput/", "partitionKeys": []}"""), transformationContext="AmazonS3_node_target", format="json").writeDynamicFrame(frameWithDetectedPII) Job.commit() } }

列レベルの検出

この例では、ジョブが classifyColumns() API を使用して次のアクションを実行しています。

  • Amazon S3 バケットからデータを読み取り、dynamicFrame に変換する

  • dynamicFrame 内にある「Email」と「Credit Card」のインスタンスを検出する

  • 列の 100% をサンプリングし、エンティティがセルの 10% にある場合に検出済みとしてマークするとともに、感度が [低] になるようにパラメータを設定します

  • キーが列名、値が検出されたエンティティタイプのリストであるマップを返します

  • 返された dynamicFrame を別の Amazon S3 パスに書き込む

import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.MappingSpec import com.amazonaws.services.glue.errors.CallSite import com.amazonaws.services.glue.util.GlueArgParser import com.amazonaws.services.glue.util.Job import com.amazonaws.services.glue.util.JsonOptions import org.apache.spark.SparkContext import scala.collection.JavaConverters._ import com.amazonaws.services.glue.DynamicFrame import com.amazonaws.services.glue.ml.EntityDetector object GlueApp { def main(sysArgs: Array[String]) { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray) Job.init(args("JOB_NAME"), glueContext, args.asJava) val frame = glueContext.getSourceWithFormat(formatOptions=JsonOptions("""{"quoteChar": "\"", "withHeader": true, "separator": ",", "optimizePerformance": false}"""), connectionType="s3", format="csv", options=JsonOptions("""{"paths": ["s3://pathToSource"], "recurse": true}"""), transformationContext="frame").getDynamicFrame() import glueContext.sparkSession.implicits._ val detectedDataFrame = EntityDetector.classifyColumns( frame, entityTypesToDetect = Seq("CREDIT_CARD", "PHONE_NUMBER"), sampleFraction = 1.0, thresholdFraction = 0.1, detectionSensitivity = "LOW" ) val detectedDF = (detectedDataFrame).toSeq.toDF("columnName", "entityTypes") val DetectSensitiveData_node = DynamicFrame(detectedDF, glueContext) glueContext.getSinkWithFormat(connectionType="s3", options=JsonOptions("""{"path": "s3://pathToOutput", "partitionKeys": []}"""), transformationContext="someCtx", format="json").writeDynamicFrame(DetectSensitiveData_node) Job.commit() } }

AWS CustomEntityType PII タイプを使用した機密データの検出

カスタムエンティティは AWS Studio を使用して定義できますが、AWS Studio 外でこの機能を使用するには、まずカスタムエンティティタイプを定義してから、定義されたカスタムエンティティタイプを entityTypesToDetect のリストに追加する必要があります。

データ内に特定の機密データタイプ (「Employee Id」など) がある場合は、CreateCustomEntityType() API を呼び出してカスタムエンティティを作成することができます。以下の例では、リクエストパラメータを使用して CreateCustomEntityType() API にカスタムエンティティタイプ「EMPLOYEE_ID」を定義します。

{ "name": "EMPLOYEE_ID", "regexString": "\d{4}-\d{3}", "contextWords": ["employee"] }

次に、カスタムエンティティタイプ (EMPLOYEE_ID) をEntityDetector() API に追加することで、新しいカスタム機密データタイプを使用するようにジョブを変更します。

import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.MappingSpec import com.amazonaws.services.glue.errors.CallSite import com.amazonaws.services.glue.util.GlueArgParser import com.amazonaws.services.glue.util.Job import com.amazonaws.services.glue.util.JsonOptions import org.apache.spark.SparkContext import scala.collection.JavaConverters._ import com.amazonaws.services.glue.ml.EntityDetector object GlueApp { def main(sysArgs: Array[String]) { val spark: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(spark) val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray) Job.init(args("JOB_NAME"), glueContext, args.asJava) val frame= glueContext.getSourceWithFormat(formatOptions=JsonOptions("""{"quoteChar": "\"", "withHeader": true, "separator": ","}"""), connectionType="s3", format="csv", options=JsonOptions("""{"paths": ["s3://pathToSource"], "recurse": true}"""), transformationContext="AmazonS3_node1650160158526").getDynamicFrame() val frameWithDetectedPII = EntityDetector.detect(frame, Seq("EMAIL", "CREDIT_CARD", "EMPLOYEE_ID")) glueContext.getSinkWithFormat(connectionType="s3", options=JsonOptions("""{"path": "s3://pathToOutput/", "partitionKeys": []}"""), transformationContext="someCtx", format="json").writeDynamicFrame(frameWithDetectedPII) Job.commit() } }
注記

カスタム機密データタイプが既存マネージドエンティティタイプと同じ名前で定義されている場合は、カスタム機密データタイプが優先され、マネージドエンティティタイプのロジックが上書きされます。

detect() を使用する検出パラメータ

このメソッドは、DynamicFrame 内のエンティティを検出するために使用されます。元の値を含む新しい DataFrame と、PII 検出メタデータを含む追加の列の outputColumnName を返します。この DynamicFrame が AWS Glue スクリプト内で返された後にカスタムマスキングを実行することも、詳細なアクション API を備えた detect() を代わりに使用することもできます。

detect(frame: DynamicFrame, entityTypesToDetect: Seq[String], outputColumnName: String = "DetectedEntities", detectionSensitivity: String = "LOW"): DynamicFrame

[パラメータ:]

  • frame – (タイプ: DynamicFrame) 処理されるデータを含む入力 DynamicFrame。

  • entityTypesToDetect – (タイプ: [Seq[String]) 検出するエンティティタイプのリスト。マネージドエンティティタイプまたはカスタムエンティティタイプのいずれかになります。

  • outputColumnName – (タイプ: String、デフォルト:「DetectedEntities」) 検出されたエンティティが保存される列の名前。指定しない場合、デフォルトの列名は「DetectedEntities」となります。

  • detectionSensitivity – (タイプ: String、オプション: [低] または [高]、デフォルト: [低]) 検出プロセスの感度を指定します。有効なオプションは [低] または [高] です。指定しない場合、デフォルトの感度は [低] に設定されます。

outputColumnName の設定:

検出されたエンティティが保存される列の名前。指定しない場合、デフォルトの列名は「DetectedEntities」となります。出力列の各行について、補足列には、次の key-value ペアを含む、検出されたエンティティメタデータに対する列名のマップが含まれます。

  • entityType – 検出されたエンティティタイプ。

  • start – 元のデータ内の検出されたエンティティの開始場所。

  • end – 元のデータ内の検出されたエンティティの終了場所。

  • actionUsed – 検出されたエンティティに対して実行されたアクション (例:「DETECT」、「REDACT」、「PARTIAL_REDACT」、「SHA256_HASH」)。

例:

{ "DetectedEntities":{ "SSN Col":[ { "entityType":"USA_SSN", "actionUsed":"DETECT", "start":4, "end":15 } ], "Random Data col":[ { "entityType":"BANK_ACCOUNT", "actionUsed":"PARTIAL_REDACT", "start":4, "end":13 }, { "entityType":"IP_ADDRESS", "actionUsed":"REDACT", "start":4, "end":13 } ] } }

詳細なアクションの detect() の検出パラメータ

このメソッドは、指定されたパラメータを使用して DynamicFrame 内のエンティティを検出するために使用されます。元の値がマスキングされた機密データに置き換えられた新しい DataFrame と、PII 検出メタデータを含む追加の列 outputColumnName が返されます。

detect(frame: DynamicFrame, detectionParameters: JsonOptions, outputColumnName: String = "DetectedEntities", detectionSensitivity: String = "LOW"): DynamicFrame

[パラメータ:]

  • frame – (タイプ: DynamicFrame): 処理されるデータを含む入力 DynamicFrame。

  • detectionParameters – (タイプ: JsonOptions): 検出プロセスのパラメータを指定する JSON オプション。

  • outputColumnName – (タイプ: String、デフォルト:「DetectedEntities」): 検出されたエンティティが保存される列の名前。指定しない場合、デフォルトの列名は「DetectedEntities」となります。

  • detectionSensitivity – (タイプ: String、オプション: [低] または [高]、デフォルト: [低]): 検出プロセスの感度を指定します。有効なオプションは [低] または [高] です。指定しない場合、デフォルトの感度は [低] に設定されます。

detectionParameters の設定

設定が含まれていない場合は、デフォルト値が使用されます。

  • action – (タイプ: String、オプション:「DETECT」、「REDACT」、「PARTIAL_REDACT」、「SHA256_HASH」) エンティティに対して実行するアクションを指定します。必須。マスキングを実行するアクション (「DETECT」を除くすべて) は、列ごとに 1 つのアクションしか実行できないことに留意してください。これは、合体したエンティティをマスキングするための予防措置です。

  • sourceColumns – (タイプ: List[String]、デフォルト: [“*”]) エンティティの検出を実行するソース列名のリスト。存在しない場合は、デフォルトで [“*”] に設定されます。無効な列名が使用された場合に IllegalArgumentException を発生させます。

  • sourceColumnsToExclude – (タイプ: List[String]) エンティティの検出を実行するソース列名のリスト。sourceColumns または sourceColumnsToExclude のいずれかを使用します。無効な列名が使用された場合に IllegalArgumentException を発生させます。

  • actionOptions – 指定されたアクションに基づく追加オプション:

    • 「DETECT」および「SHA256_HASH」の場合、いかなるオプションも使用できません。

    • 「REDACT」の場合:

      • redactText – (タイプ: String、デフォルト:「*****」) 検出されたエンティティを置き換えるテキスト。

    • 「PARTIAL_REDACT」の場合:

      • redactChar – (タイプ: String、デフォルト:「*」) エンティティ内で検出された各文字を置き換える文字。

      • matchPattern – (タイプ: String) 部分的なマスキングの正規表現パターン。numLeftCharsToExclude または numRightCharsToExclude と組み合わせることはできません。

      • numLeftCharsToExclude – (タイプ: String, integer) 除外する左側の文字の数。matchPattern と組み合わせることはできませんが、numRightCharsToExclude と組み合わせて使用することはできます。

      • numRightCharsToExclude – (タイプ: String, integer) 除外する右側の文字の数。matchPattern と組み合わせることはできませんが、numRightCharsToExclude と組み合わせて使用することはできます。

outputColumnName の設定

outputColumnName の設定を参照してください

classifyColumns() の検出パラメータ

このメソッドは、DynamicFrame 内のエンティティを検出するために使用されます。キーが列名、値が検出されたエンティティタイプのリストであるマップを返します。これが AWS Glue スクリプト内で返された後、カスタムマスキングを実行できます。

classifyColumns(frame: DynamicFrame, entityTypesToDetect: Seq[String], sampleFraction: Double = 0.1, thresholdFraction: Double = 0.1, detectionSensitivity: String = "LOW")

[パラメータ:]

  • frame – (タイプ: DynamicFrame) 処理されるデータを含む入力 DynamicFrame。

  • entityTypesToDetect – (タイプ: Seq[String]) 検出するエンティティタイプのリスト。マネージドエンティティタイプまたはカスタムエンティティタイプのいずれかになります。

  • sampleFraction – (タイプ: Double、デフォルト: 10%) PII エンティティをスキャンする際にサンプリングするデータの割合。

  • thresholdFraction – (タイプ: Double、デフォルト: 10%): 列が PII データとして識別されるために満たす必要があるデータの割合。

  • detectionSensitivity – (タイプ: String、オプション: [低] または [高]、デフォルト: [低]) 検出プロセスの感度を指定します。有効なオプションは [低] または [高] です。指定しない場合、デフォルトの感度は [低] に設定されます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.