Menyunting PII dalam pekerjaan batch Anda - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menyunting PII dalam pekerjaan batch Anda

Saat menyunting informasi identitas pribadi (PII) dari transkrip selama pekerjaan transkripsi batch, Amazon Transcribe ganti setiap instance PII yang diidentifikasi dengan [PII] di badan teks utama transkrip Anda. Anda juga dapat melihat jenis PII yang diedit di word-for-word bagian output transkripsi. Untuk sampel keluaran, lihatContoh keluaran yang disunting (batch).

Redaksi dengan transkripsi batch tersedia dengan bahasa Inggris AS (en-US) dan Spanyol AS (es-US). Redaksi tidak kompatibel dengan identifikasi bahasa.

Transkrip yang diedit dan tidak disunting disimpan dalam ember keluaran yang sama. Amazon S3 Amazon Transcribe menyimpannya dalam bucket yang Anda tentukan atau di Amazon S3 bucket default yang dikelola oleh layanan.

Jenis PII Amazon Transcribe dapat dikenali untuk transkripsi batch
Jenis PII Deskripsi
ADDRESS

Alamat fisik, seperti 100 Main Street, Anytown, USA atau Suite #12, Building 123. Alamat dapat mencakup jalan, bangunan, lokasi, kota, negara bagian, negara, kabupaten, zip, kantor polisi, lingkungan, dan banyak lagi.

ALL

Menyunting atau mengidentifikasi semua jenis PII yang tercantum dalam tabel ini.

BANK_ACCOUNT_NUMBER

Nomor rekening bank AS. Ini biasanya antara 10 - 12 digit panjang, tetapi Amazon Transcribe juga mengenali nomor rekening bank ketika hanya 4 digit terakhir yang ada.

BANK_ROUTING

Nomor perutean rekening bank AS. Ini biasanya 9 digit panjang, tetapi Amazon Transcribe juga mengenali nomor routing ketika hanya 4 digit terakhir yang ada.

CREDIT_DEBIT_CVV

Kode verifikasi kartu 3 digit (CVV) yang ada di VISA, MasterCard, serta Discover kartu kredit dan debit. Dalam kartu kredit atau debit American Express, ini adalah kode numerik 4 digit.

CREDIT_DEBIT_EXPIRY

Tanggal kedaluwarsa untuk kartu kredit atau debit. Angka ini biasanya panjangnya 4 digit dan diformat sebagai. month/year or MM/YY Misalnya, Amazon Transcribe dapat mengenali tanggal kedaluwarsa seperti 01/21, 01/2021, dan Jan 2021.

CREDIT_DEBIT_NUMBER

Nomor untuk kartu kredit atau debit. Angka-angka ini dapat bervariasi dari 13 hingga 16 digit panjangnya, tetapi Amazon Transcribe juga mengenali nomor kartu kredit atau debit ketika hanya 4 digit terakhir yang ada.

EMAIL

Alamat email, seperti efua.owusu@email.com.

NAME

Nama seorang individu. Jenis entitas ini tidak termasuk judul, seperti Mr., Mrs., Miss, atau Dr. Amazon Transcribe tidak menerapkan jenis entitas ini untuk nama yang merupakan bagian dari organisasi atau alamat. Misalnya, Amazon Transcribe mengakui Organisasi John Doe sebagai sebuah organisasi, dan Jane Doe Street sebagai alamat.

PHONE

Sebuah nomor telepon. Jenis entitas ini juga mencakup nomor faks dan pager.

PIN

4 digit nomor identifikasi pribadi (PIN) yang memungkinkan seseorang untuk mengakses informasi rekening bank mereka.

SSN

Nomor Jaminan Sosial (SSN) adalah nomor 9 digit yang dikeluarkan untuk warga negara AS, penduduk tetap, dan penduduk yang bekerja sementara. Amazon Transcribe juga mengenali Nomor Jaminan Sosial ketika hanya 4 digit terakhir yang ada.

Anda dapat memulai pekerjaan transkripsi batch menggunakan AWS Management Console, AWS CLI, atau AWS SDK.

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini akan membuka halaman Tentukan detail pekerjaan.

  3. Setelah mengisi bidang yang Anda inginkan pada halaman Tentukan detail pekerjaan, pilih Berikutnya untuk pergi ke halaman Konfigurasi pekerjaan - opsional. Di sini Anda akan menemukan panel penghapusan konten dengan sakelar redaksi PII.

    Amazon Transcribe tangkapan layar konsol: 'panel penghapusan konten' di halaman 'konfigurasi pekerjaan'.
  4. Setelah Anda memilih redaksi PII, Anda memiliki opsi untuk memilih semua jenis PII yang ingin Anda edit. Anda juga dapat memilih untuk memiliki transkrip yang tidak disunting jika Anda memilih Sertakan transkrip yang tidak disunting di kotak keluaran pekerjaan.

    Amazon Transcribe tangkapan layar konsol: panel 'penghapusan konten' yang menampilkan opsi PII.
  5. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah dan content-redaction parameter. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan ContentRedaction.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --content-redaction RedactionType=PII,RedactionOutput=redacted,PiiEntityTypes=NAME,ADDRESS,BANK_ACCOUNT_NUMBER

Berikut contoh lain menggunakan start-transcription-jobmetode ini, dan badan permintaan menyunting PII untuk pekerjaan itu.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-redaction-job.json

File my-first-redaction-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "ContentRedaction": { "RedactionOutput":"redacted", "RedactionType":"PII", "PiiEntityTypes": [ "NAME", "ADDRESS", "BANK_ACCOUNT_NUMBER" ] } }

Contoh ini menggunakan AWS SDK for Python (Boto3) untuk menyunting konten menggunakan ContentRedaction argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan ContentRedaction.

Untuk contoh tambahan menggunakan AWS SDKs, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', ContentRedaction = { 'RedactionOutput':'redacted', 'RedactionType':'PII', 'PiiEntityTypes': [ 'NAME','ADDRESS','BANK_ACCOUNT_NUMBER' ] } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
catatan

Redaksi PII untuk pekerjaan batch hanya didukung dalam hal ini Wilayah AWS: Asia Pasifik (Hong Kong), Asia Pasifik (Mumbai), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), (AS-Barat), Kanada GovCloud (Tengah), UE (Frankfurt), UE (Irlandia), UE (London), Uni Eropa (Paris), Timur Tengah (Bahia Bahrain), Amerika Selatan (Sao Paulo), AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), dan AS Barat (California N.).