As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Editar PII no trabalho em lote
Ao redigir informações de identificação pessoal (PII) de uma transcrição durante um trabalho de transcrição em lote, Amazon Transcribe substitui cada instância identificada de PII pelo corpo do texto principal da sua transcrição. [PII]
Você também pode ver o tipo de PII que está redigido na word-for-word parte da saída da transcrição. Para obter um exemplo de saída, consulte Exemplo de saída editada (lote).
A redação com transcrições em lote está disponível em inglês dos EUA (en-US
) e espanhol dos EUA (). es-US
A edição não é compatível com a identificação de idioma.
Tanto as transcrições editadas quanto as não editadas são armazenadas no mesmo bucket de saída. Amazon S3 Amazon Transcribe os armazena em um bucket especificado por você ou no Amazon S3 bucket padrão gerenciado pelo serviço.
Tipo de PII | Descrição |
---|---|
ADDRESS |
Um endereço físico, como 100 Main Street, Anytown, USA ou Suite #12, Building 123. Um endereço pode incluir rua, prédio, local, cidade, estado, país, condado, CEP, jurisdição, bairro e muito mais. |
ALL |
Reduza ou identifique todos os tipos de PII listados nesta tabela. |
BANK_ACCOUNT_NUMBER |
Um número de conta bancária dos EUA. Normalmente, eles têm entre 10 e 12 dígitos, mas o Amazon Transcribe também reconhece números de contas bancárias quando somente os últimos quatro dígitos estão presentes. |
BANK_ROUTING |
Um número de roteamento de conta bancária dos EUA. Normalmente, eles têm nove dígitos, mas o Amazon Transcribe também reconhece números de roteamento quando apenas os últimos quatro dígitos estão presentes. |
CREDIT_DEBIT_CVV |
Um código de verificação de cartão (CVV) de 3 dígitos que está presente nos cartões de crédito e débito VISA e Discover. MasterCard Nos cartões de crédito ou débito da American Express, é um código numérico de quatro dígitos. |
CREDIT_DEBIT_EXPIRY |
Data de validade do cartão de crédito ou débito. Esse número geralmente tem quatro dígitos e é formatado como mês/ano ou MM/AA. Por exemplo, Amazon Transcribe pode reconhecer datas de vencimento como 21/01, 01/2021 e janeiro de 2021. |
CREDIT_DEBIT_NUMBER |
O número de um cartão de crédito ou débito. Esses números podem variar de 13 a 16 dígitos, mas Amazon Transcribe também reconhecem números de cartão de crédito ou débito quando somente os últimos 4 dígitos estão presentes. |
EMAIL |
Um endereço de e-mail, como efua.owusu@email.com. |
NAME |
O nome de uma pessoa. Esse tipo de entidade não inclui títulos, como Sr., Sra., Senhorita ou Dr.. Não Amazon Transcribe aplica esse tipo de entidade a nomes que fazem parte de organizações ou endereços. Por exemplo, Amazon Transcribe reconhece a John Doe Organization como uma organização e a Jane Doe Street como um endereço. |
PHONE |
Um número de telefone. Esse tipo de entidade também inclui números de fax e pager. |
PIN |
Um número de identificação pessoal (PIN) de quatro dígitos que permite que alguém acesse as informações da conta bancária. |
SSN |
Um Número de Seguro Social (SSN) é um número de 9 dígitos emitido para cidadãos dos EUA, residentes permanentes e residentes temporários que trabalham. Amazon Transcribe também reconhece números de previdência social quando apenas os últimos 4 dígitos estão presentes. |
Você pode iniciar um trabalho de transcrição em lote usando o AWS Management Console AWS CLI, ou AWS SDK.
-
Faça login no AWS Management Console
. -
No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abrirá a página Especificar os detalhes da tarefa.
-
Depois de preencher os campos desejados na página Especificar os detalhes da tarefa, selecione Próximo para ir até a página Configurar tarefa - opcional. Ali você encontrará o painel de Remoção de conteúdo com o botão Edição de PII.
-
Depois de selecionar Edição de PII, você tem a opção de escolher todos os tipos de PII que deseja editar. Você também pode optar por ter uma transcrição não editada se selecionar a caixa Incluir transcrição sem ocultação na saída da tarefa.
-
Selecione Criar tarefa para executar a tarefa de transcrição.
Este exemplo usa o start-transcription-jobcontent-redaction
parâmetro. Para obter mais informações, consulte StartTranscriptionJob
e ContentRedaction
.
aws transcribe start-transcription-job \ --region
us-west-2
\ --transcription-job-namemy-first-transcription-job
\ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
\ --output-bucket-nameDOC-EXAMPLE-BUCKET
\ --output-keymy-output-files
/ \ --language-codeen-US
\ --content-redaction RedactionType=PII
,RedactionOutput=redacted
,PiiEntityTypes=NAME
,ADDRESS
,BANK_ACCOUNT_NUMBER
Aqui está outro exemplo usando o start-transcription-job
aws transcribe start-transcription-job \ --region
us-west-2
\ --cli-input-json file://filepath
/my-first-redaction-job
.json
O arquivo my-first-redaction-job.json contém o seguinte corpo da solicitação.
{ "TranscriptionJobName": "
my-first-transcription-job
", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET
", "OutputKey": "my-output-files
/", "LanguageCode": "en-US
", "ContentRedaction": { "RedactionOutput":"redacted
", "RedactionType":"PII", "PiiEntityTypes": [ "NAME
", "ADDRESS
", "BANK_ACCOUNT_NUMBER
" ] } }
Este exemplo usa o AWS SDK for Python (Boto3) para redigir conteúdo usando o ContentRedaction
argumento do método start_transcription_jobStartTranscriptionJob
e ContentRedaction
.
Para ver exemplos adicionais de uso dos AWS SDKs, incluindo exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo. Exemplos de código para o Amazon Transcribe usando AWS SDKs
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', '
us-west-2
') job_name = "my-first-transcription-job
" job_uri = "s3://DOC-EXAMPLE-BUCKET
/my-input-files
/my-media-file
.flac
" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET
', OutputKey = 'my-output-files
/', LanguageCode = 'en-US
', ContentRedaction = { 'RedactionOutput':'redacted
', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME
','ADDRESS
','BANK_ACCOUNT_NUMBER
' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota
A redação de PII para trabalhos em lote só é suportada nestas áreas Regiões da AWS: Ásia-Pacífico (Hong Kong), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), GovCloud (Oeste dos EUA), Canadá (Central), UE (Frankfurt), UE (Irlanda), UE (Londres), UE (Paris), Oriente Médio (Bahrein), América do Sul (São Paulo), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Oeste dos EUA (Norte da Califórnia).