Redacción de la PII en su trabajo por lotes - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Redacción de la PII en su trabajo por lotes

Al redactar información de identificación personal (PII) de una transcripción durante un trabajo de transcripción por lotes, Amazon Transcribe reemplaza cada instancia identificada de PII por una [PII] en el cuerpo del texto principal de la transcripción. También puede ver el tipo de PII que está redactada en la parte del resultado de la transcripción. word-for-word Para un ejemplo de salida, consulte Ejemplo de salida redactada (por lotes).

La redacción con transcripciones por lotes está disponible en inglés (en-US) y español estadounidense (). es-US La redacción no es compatible con la identificación del idioma.

Tanto las transcripciones redactadas como las no redactadas se almacenan en el mismo depósito de salida. Amazon S3 Amazon Transcribe las almacena en un depósito que usted especifique o en el Amazon S3 depósito predeterminado que administra el servicio.

Los tipos de PII que Amazon Transcribe se pueden reconocer para las transcripciones por lotes
Tipo de PII Descripción
ADDRESS

Una dirección física, como, por ejemplo: 100 Main Street, Anytown, EE. UU. o Suite n.º 12, Building 123. Una dirección puede la calle, el edificio, la ubicación, la ciudad, el estado, el país, el condado, el código postal, el distrito y el barrio.

ALL

Redacte o identifique todos los tipos de PII que aparecen en esta tabla.

BANK_ACCOUNT_NUMBER

Número de cuenta bancaria en EE. UU. Suelen tener entre 10 y 12 dígitos, pero Amazon Transcribe también reconoce los números de las cuentas bancarias cuando sólo están presentes los últimos 4 dígitos.

BANK_ROUTING

número de ruta de la cuenta bancaria en EE. UU Suelen tener 9 dígitos, pero Amazon Transcribe también reconoce los números de las cuentas bancarias cuando sólo están presentes los últimos 4 dígitos.

CREDIT_DEBIT_CVV

Un código de verificación de tarjeta (CVV) de 3 dígitos que está presente en las tarjetas de crédito y débito VISA y Discover. MasterCard En el caso de las tarjetas de crédito o débito American Express, el CVV es un código numérico de 4 dígitos.

CREDIT_DEBIT_EXPIRY

Fecha de caducidad de la tarjeta de crédito o débito Este número suele tener 4 dígitos y su formato es mes/año o MM/AA. Por ejemplo, Amazon Transcribe puede reconocer fechas de caducidad como el 21/01/2021 y enero de 2021.

CREDIT_DEBIT_NUMBER

Número de una tarjeta de crédito o débito. Estos números pueden variar de 13 a 16 dígitos, pero Amazon Transcribe también reconocen los números de las tarjetas de crédito o débito cuando solo están presentes los últimos 4 dígitos.

EMAIL

Se trata de una dirección de correo electrónico, como efua.owusu@email.com.

NAME

El nombre de una persona. Este tipo de entidad no incluye cargos, como Sr., Sra., Srta. o Dr. No Amazon Transcribe aplica este tipo de entidad a los nombres que forman parte de organizaciones o direcciones. Por ejemplo, Amazon Transcribe reconoce a la Organización John Doe como una organización y a Jane Doe Street como una dirección.

PHONE

número de teléfono Este tipo de entidad también incluye números de fax y buscapersonas.

PIN

Un número de identificación personal (PIN) de 4 dígitos que permite a una persona acceder a la información de su cuenta bancaria.

SSN

Un número de seguro social (SSN) es un número de 9 dígitos que se emite a los ciudadanos estadounidenses, los residentes permanentes y los residentes que trabajan temporalmente. Amazon Transcribe también reconoce los números de seguro social cuando solo están presentes los últimos 4 dígitos.

Puede iniciar un trabajo de transcripción por lotes utilizando el AWS Management Console AWS CLI, o el AWS SDK.

  1. Inicie sesión en la AWS Management Console.

  2. En el panel de navegación, seleccione Trabajos de transcripción y, a continuación, seleccione Crear trabajo (arriba a la derecha). Se abrirá la página Especificar los detalles del trabajo.

  3. Tras rellenar los campos que desee en la página de Especificar los detalles del trabajo, seleccione Siguiente para ir a la página Configurar trabajo: opcional. Aparecerá el panel Eliminación de contenido con el botón Redacción de PII.

    Amazon Transcribe captura de pantalla de la consola: el «panel de eliminación de contenido» de la página de «configurar el trabajo».
  4. Una vez que seleccione la Redacción de PII, tiene la opción de seleccionar todos los tipos de PII que desee redactar. También puede optar por tener una transcripción sin editar si selecciona el cuadro para incluir la transcripción sin redactar en los resultados del trabajo.

    Amazon Transcribe captura de pantalla de la consola: el panel de «eliminación de contenido» que muestra las opciones de PII.
  5. Seleccione Crear trabajo para ejecutar su trabajo de transcripción.

En este ejemplo se utilizan el comando y el parámetro start-transcription-job. content-redaction Para obtener más información, consulte StartTranscriptionJob y ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Este es otro ejemplo en el que se utiliza el start-transcription-jobmétodo, y el cuerpo de la solicitud redacta la PII de ese trabajo.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

El archivo my-first-redaction-job.json contiene el siguiente cuerpo de solicitud.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

En este ejemplo, se utiliza AWS SDK for Python (Boto3) para redactar el contenido mediante el ContentRedaction argumento del método start_transcription_job. Para obtener más información, consulte StartTranscriptionJob y ContentRedaction.

Para ver ejemplos adicionales sobre el uso de los AWS SDK, incluidos ejemplos de funciones específicas, escenarios y servicios cruzados, consulta el capítulo. Ejemplos de código para Amazon Transcribe usando AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota

La redacción de la PII para trabajos por lotes solo se admite en los Regiones de AWS siguientes países: Asia Pacífico (Hong Kong), Asia Pacífico (Bombay), Asia Pacífico (Seúl), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), GovCloud (EE. UU. Oeste), Canadá (Central), UE (Fráncfort), UE (Irlanda), UE (Londres), UE (París), Oriente Medio (Bahréin), Sudamérica (São Paulo), EE. UU. (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón) y EE.UU. Oeste (Norte de California).