Editar PII no trabalho em lote - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Editar PII no trabalho em lote

Ao redigir informações de identificação pessoal (PII) de uma transcrição durante um trabalho de transcrição em lote, Amazon Transcribe substitui cada instância identificada de PII pelo corpo do texto principal da sua transcrição. [PII] Você também pode ver o tipo de PII que está redigido na word-for-word parte da saída da transcrição. Para obter um exemplo de saída, consulte Exemplo de saída editada (lote).

A redação com transcrições em lote está disponível em inglês dos EUA (en-US) e espanhol dos EUA (). es-US A edição não é compatível com a identificação de idioma.

Tanto as transcrições editadas quanto as não editadas são armazenadas no mesmo bucket de saída. Amazon S3 Amazon Transcribe os armazena em um bucket especificado por você ou no Amazon S3 bucket padrão gerenciado pelo serviço.

Tipos de PII que Amazon Transcribe podem ser reconhecidos para transcrições em lote
Tipo de PII Descrição
ADDRESS

Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais.

ALL

Reduza ou identifique todos os tipos de PII listados nesta tabela.

BANK_ACCOUNT_NUMBER

Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes.

BANK_ROUTING

Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes.

CREDIT_DEBIT_CVV

Um código de verificação de cartão (CVV) de 3 dígitos que está presente nos cartões de crédito e débito VISA e Discover. MasterCard Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos.

CREDIT_DEBIT_EXPIRY

Data de validade do cartão de crédito ou débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. Por exemplo, Amazon Transcribe pode reconhecer datas de vencimento como 21/01, 01/2021 e janeiro de 2021.

CREDIT_DEBIT_NUMBER

O número de um cartão de crédito ou débito. Esses números podem variar de 13 a 16 dígitos, mas Amazon Transcribe também reconhecem números de cartão de crédito ou débito quando somente os últimos 4 dígitos estão presentes.

EMAIL

Um endereço de e-mail, como efua.owusu@email.com.

NAME

O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Senhorita ou Dr.. Não Amazon Transcribe aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, Amazon Transcribe reconhece a John Doe Organization como uma organização e a Jane Doe Street como um endereço.

PHONE

Um número de telefone. Esse tipo de entidade também inclui números de fax e pager.

PIN

Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária.

SSN

Um Número de Seguro Social (SSN) é um número de 9 dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. Amazon Transcribe também reconhece números de previdência social quando apenas os últimos 4 dígitos estão presentes.

Você pode iniciar um trabalho de transcrição em lote usando o AWS Management Console AWS CLI, ou AWS SDK.

  1. Faça login no AWS Management Console.

  2. No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abrirá a página Especificar os detalhes da tarefa.

  3. Depois de preencher os campos desejados na página Especificar os detalhes da tarefa, selecione Próximo para ir até a página Configurar tarefa - opcional. Ali você encontrará o painel de Remoção de conteúdo com o botão Edição de PII.

    Amazon Transcribe captura de tela do console: o “painel de remoção de conteúdo” na página “configurar tarefa”.
  4. Depois de selecionar Edição de PII, você tem a opção de escolher todos os tipos de PII que deseja editar. Você também pode optar por ter uma transcrição não editada se selecionar a caixa Incluir transcrição sem ocultação na saída da tarefa.

    Amazon Transcribe captura de tela do console: o painel “remoção de conteúdo” mostrando as opções de PII.
  5. Selecione Criar tarefa para executar a tarefa de transcrição.

Este exemplo usa o start-transcription-jobcomando e o content-redaction parâmetro. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Aqui está outro exemplo usando o start-transcription-jobmétodo, e o corpo da solicitação redige as PII desse trabalho.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

O arquivo my-first-redaction-job.json contém o seguinte corpo da solicitação.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Este exemplo usa o AWS SDK for Python (Boto3) para redigir conteúdo usando o ContentRedaction argumento do método start_transcription_job. Para obter mais informações, consulte StartTranscriptionJob e ContentRedaction.

Para ver exemplos adicionais de uso dos AWS SDKs, incluindo exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo. Exemplos de código para o Amazon Transcribe usando AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota

A redação de PII para trabalhos em lote só é suportada nestas áreas Regiões da AWS: Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), GovCloud (Oeste dos EUA), Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), UE (Paris), Oriente Médio (Bahrein), América do Sul (São Paulo), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Oeste dos EUA (Norte da Califórnia).