Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Para redactar las entidades de PII del texto, inicie un trabajo asíncrono por lotes. Para ejecutar el trabajo, cargue los documentos en Amazon S3 y envíe una StartPiiEntitiesDetectionJobsolicitud.
Temas
Antes de comenzar
Antes de comenzar, asegúrese de que dispone de:
-
Buckets de entrada y salida: identifique los buckets de Amazon S3 que desea utilizar para los archivos de entrada y salida. Los buckets deben estar situados en la misma región que la API a la cual está llamando.
-
Rol de servicio de IAM: debe tener un rol de servicio de IAM con permiso para acceder a sus buckets de entrada y salida. Para obtener más información, consulte Se requieren permisos basados en roles para las operaciones asíncronas.
Parámetros de entrada
En la solicitud, incluya los siguientes parámetros obligatorios:
-
InputDataConfig
— Proporcione una InputDataConfigdefinición para su solicitud, que incluya las propiedades de entrada del trabajo. Para el parámetroS3Uri
, especifique la ubicación de Amazon S3 de los documentos de entrada. -
OutputDataConfig
— Proporcione una OutputDataConfigdefinición para su solicitud, que incluya las propiedades de salida del trabajo. Para el parámetroS3Uri
, especifique la ubicación de Amazon S3 en la que Amazon Comprehend escribe los resultados de su análisis. -
DataAccessRoleArn
: proporcione el nombre de recurso de Amazon (ARN) del rol de AWS Identity and Access Management . Este rol debe conceder a Amazon Comprehend acceso de lectura a sus datos de entrada y acceso de escritura a su ubicación de salida en Amazon S3. Para obtener más información, consulte Se requieren permisos basados en roles para las operaciones asíncronas. -
Mode
: establezca este parámetro enONLY_REDACTION
. Con esta configuración, Amazon Comprehend escribe una copia de los documentos de entrada en la ubicación de salida de Amazon S3. En esta copia, cada entidad de PII está redactada. -
RedactionConfig
— Proporcione una RedactionConfigdefinición para su solicitud, que incluya los parámetros de configuración para la redacción. Especifique los tipos de PII que desee redactar y especifique si cada entidad de PII se sustituye por el nombre de su tipo o por un carácter de su elección:-
Especifique los tipos de entidades de PII que se van a redactar en la matriz
PiiEntityTypes
. Para redactar todos los tipos de entidades, establezca el valor de la matriz en["ALL"]
. -
Para reemplazar cada entidad de PII por su tipo, defina el parámetro
MaskMode
enREPLACE_WITH_PII_ENTITY_TYPE
. Por ejemplo, con esta configuración, la entidad de PII “Jane Doe” se sustituye por “[NOMBRE]”. -
Para reemplazar los caracteres de cada entidad de PII por un carácter de su elección, defina el parámetro
MaskMode
enMASK
y establezca el parámetroMaskCharacter
en el carácter de reemplazo. Proporcione solo un carácter. Los caracteres válidos son !, #, $, %, &, *, and @. Por ejemplo, con esta configuración, la entidad de PII “Jane Doe” se puede reemplazar por “**** ***”.
-
-
LanguageCode
— Defina este parámetro enen
oes
. Amazon Comprehend admite la detección de PII en texto en inglés o español.
Formato de archivo de salida
El siguiente ejemplo muestra los archivos de entrada y salida de un trabajo de análisis que redacta la PII. El formato de entrada es de un documento por línea.
{ Managing Your Accounts Primary Branch Canton John Doe Phone Number 443-573-4800 123 Main StreetBaltimore, MD 21224 Online Banking HowardBank.com Telephone 1-877-527-2703 Bank 3301 Boston Street, Baltimore, MD 21224
El trabajo de análisis para redactar este archivo de entrada produce el siguiente archivo de salida.
{ Managing Your Accounts Primary Branch ****** ******** Phone Number ************ ********************************** Online Banking ************** Telephone ************** Bank *************************************** }
Redacción de la PII mediante el AWS Command Line Interface
En el siguiente ejemplo, se utiliza la operación StartPiiEntitiesDetectionJob
con la AWS CLI.
El ejemplo está formateado para Unix, Linux y macOS. Para Windows, sustituya la barra diagonal invertida (\) utilizada como carácter de continuación de Unix al final de cada línea por el signo de intercalación (^).
aws comprehend start-pii-entities-detection-job \ --region
region
\ --job-namejob name
\ --cli-input-json file://path to JSON input file
Para el parámetro de cli-input-json
, debe proporcionar la ruta de un archivo JSON que contiene los datos de solicitud, como se muestra en el siguiente ejemplo.
{ "InputDataConfig": { "S3Uri": "s3://
input bucket
/input path
", "InputFormat": "ONE_DOC_PER_LINE" }, "OutputDataConfig": { "S3Uri": "s3://output bucket
/output path
" }, "DataAccessRoleArn": "arn:aws:iam::account ID
:role/data access role
" "LanguageCode": "en", "Mode": "ONLY_REDACTION" "RedactionConfig": { "MaskCharacter": "*", "MaskMode": "MASK", "PiiEntityTypes": ["ALL"] } }
Si la solicitud para iniciar el trabajo de detección de eventos se realizó correctamente, recibirá una respuesta similar a la siguiente:
{
"JobId": "7c4fbe6e...e5b"
"JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b"
"JobStatus": "SUBMITTED",
}
Puede utilizar la DescribeEventsDetectionJoboperación para obtener el estado de un trabajo existente.
aws comprehend describe-pii-entities-detection-job \ --region
region
\ --job-idjob ID
Cuando el trabajo se complete correctamente, recibirá una respuesta similar a la siguiente:
{
"PiiEntitiesDetectionJobProperties": {
"JobId": "7c4fbe6e...e5b"
"JobArn": "arn:aws:comprehend:us-west-2:123456789012:pii-entities-detection-job/7c4fbe6e...e5b"
"JobName": "piiCLIredtest1",
"JobStatus": "COMPLETED",
"SubmitTime": "2022-05-05T14:54:06.169000-07:00",
"EndTime": "2022-05-05T15:00:17.007000-07:00",
"InputDataConfig": {
(identical to the input data that you provided with the request)
}
}