Menganotasi file PDF - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menganotasi file PDF

Sebelum Anda dapat membuat anotasi PDF pelatihan Anda di SageMaker Ground Truth, lengkapi prasyarat berikut:

  • Instal python3.8.x

  • Instal jq

  • Instal AWS CLI

    Jika Anda menggunakan Wilayah us-east-1, Anda dapat melewatkan menginstal AWS CLI karena sudah diinstal dengan lingkungan Python Anda. Dalam hal ini, Anda membuat lingkungan virtual untuk menggunakan Python 3.8 di Cloud9. AWS

  • Konfigurasikan AWS kredensional Anda

  • Buat tenaga kerja SageMaker Ground Truth pribadi untuk mendukung anotasi

    Pastikan untuk mencatat nama tim kerja yang Anda pilih di tenaga kerja pribadi baru Anda, saat Anda menggunakannya selama instalasi.

Menyiapkan lingkungan Anda

  1. Jika menggunakan Windows, instal Cygwin; jika menggunakan Linux atau Mac, lewati langkah ini.

  2. Unduh artefak anotasi dari. GitHub Buka filenya.

  3. Dari jendela terminal Anda, arahkan ke folder yang tidak di-zip (amazon-comprehend-semi-structured- documents-annotation-tools-main).

  4. Folder ini mencakup pilihan Makefiles yang Anda jalankan untuk menginstal dependensi, menyiapkan virtualenv Python, dan menyebarkan sumber daya yang diperlukan. Tinjau file readme untuk menentukan pilihan Anda.

  5. Opsi yang disarankan menggunakan satu perintah untuk menginstal semua dependensi ke virtualenv, membangun tumpukan dari template, dan menyebarkan AWS CloudFormation tumpukan ke Anda dengan panduan interaktif. Akun AWS Jalankan perintah berikut:

    make ready-and-deploy-guided

    Perintah ini menyajikan satu set opsi konfigurasi. Pastikan Anda Wilayah AWS benar. Untuk semua bidang lainnya, Anda dapat menerima nilai default atau mengisi nilai kustom. Jika Anda memodifikasi nama AWS CloudFormation tumpukan, tuliskan sesuai kebutuhan Anda di langkah berikutnya.

    Sesi terminal menampilkan opsi AWS CloudFormation konfigurasi.

    CloudFormation Tumpukan membuat dan mengelola AWS lambda, peran AWS IAM, dan bucket AWS S3 yang diperlukan untuk alat anotasi.

    Anda dapat meninjau masing-masing sumber daya ini di halaman detail tumpukan di CloudFormation konsol.

  6. Perintah meminta Anda untuk memulai penyebaran. CloudFormation menciptakan semua sumber daya di Wilayah yang ditentukan.

    Sesi terminal yang menunjukkan AWS CloudFormation konfigurasi yang diterapkan.

    Saat status CloudFormation tumpukan bertransisi ke create-complete, sumber daya siap digunakan.

Mengunggah PDF ke bucket S3

Di bagian Menyiapkan, Anda menerapkan CloudFormation tumpukan yang membuat bucket S3 bernama comprehend-semi-structured-documents-$ {}. AWS::Region}-${AWS::AccountId Anda sekarang mengunggah dokumen PDF sumber Anda ke dalam ember ini.

catatan

Bucket ini berisi data yang diperlukan untuk pekerjaan pelabelan Anda. Kebijakan Peran Eksekusi Lambda memberikan izin untuk fungsi Lambda untuk mengakses bucket ini.

Anda dapat menemukan nama bucket S3 di detail CloudFormation Stack menggunakan tombol SemiStructuredDocuments'S3Bucket'.

  1. Buat folder baru di bucket S3. Beri nama folder baru ini 'src'.

  2. Tambahkan file sumber PDF Anda ke folder 'src' Anda. Pada langkah selanjutnya, Anda membuat anotasi file-file ini untuk melatih pengenal Anda.

  3. (Opsional) Berikut adalah contoh AWS CLI yang dapat Anda gunakan untuk mengunggah dokumen sumber Anda dari direktori lokal ke dalam ember S3:

    aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided/src/

    Atau, dengan Region dan ID Akun Anda:

    aws s3 cp --recursive local-path-to-your-source-docs s3://deploy-guided-Region-AccountID/src/

  4. Anda sekarang memiliki tenaga kerja SageMaker Ground Truth pribadi dan telah mengunggah file sumber Anda ke bucket S3, deploy-guided/src/; Anda siap untuk mulai membuat anotasi.

Membuat pekerjaan anotasi

Skrip comprehend-ssie-annotation-tool-cli.py dalam bin direktori adalah perintah pembungkus sederhana yang merampingkan pembuatan pekerjaan pelabelan SageMaker Ground Truth. Skrip python membaca dokumen sumber dari bucket S3 Anda dan membuat file manifes satu halaman yang sesuai dengan satu dokumen sumber per baris. Script kemudian membuat pekerjaan pelabelan, yang membutuhkan file manifes sebagai input.

Skrip python menggunakan bucket dan CloudFormation stack S3 yang Anda konfigurasikan di bagian Pengaturan. Parameter input yang diperlukan untuk skrip meliputi:

  • input-s3-path: S3 Uri ke dokumen sumber yang Anda unggah ke bucket S3 Anda. Misalnya: s3://deploy-guided/src/. Anda juga dapat menambahkan Region dan ID Akun Anda ke jalur ini. Misalnya: s3://deploy-guided-Region-AccountID/src/.

  • cfn-name: Nama CloudFormation tumpukan. Jika Anda menggunakan nilai default untuk nama tumpukan, nama cfn Anda adalah sam-app.

  • work-team-nameNama tenaga kerja yang Anda buat ketika Anda membangun tenaga kerja pribadi di SageMaker Ground Truth.

  • job-name-prefix: Awalan untuk pekerjaan pelabelan SageMaker Ground Truth. Perhatikan bahwa ada batas 29 karakter untuk bidang ini. Stempel waktu ditambahkan ke nilai ini. Misalnya: my-job-name-20210902T232116.

  • entity-types: Entitas yang ingin Anda gunakan selama pekerjaan pelabelan Anda, dipisahkan dengan koma. Daftar ini harus menyertakan semua entitas yang ingin Anda anotasi dalam kumpulan data pelatihan Anda. Pekerjaan pelabelan Ground Truth hanya menampilkan entitas ini untuk annotator untuk memberi label konten dalam dokumen PDF.

Untuk melihat argumen tambahan yang didukung skrip, gunakan -h opsi untuk menampilkan konten bantuan.

  • Jalankan skrip berikut dengan parameter input seperti yang dijelaskan dalam daftar sebelumnya.

    python bin/comprehend-ssie-annotation-tool-cli.py \ --input-s3-path s3://deploy-guided-Region-AccountID/src/ \ --cfn-name sam-app \ --work-team-name my-work-team-name \ --region us-east-1 \ --job-name-prefix my-job-name-20210902T232116 \ --entity-types "EntityA, EntityB, EntityC" \ --annotator-metadata "key=info,value=sample,key=Due Date,value=12/12/2021"

    Script menghasilkan output sebagai berikut:

    Downloaded files to temp local directory /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa Deleted downloaded temp files from /tmp/a1dc0c47-0f8c-42eb-9033-74a988ccc5aa Uploaded input manifest file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/input-manifest/my-job-name-20220203-labeling-job-20220203T183118.manifest Uploaded schema file to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/schema.json Uploaded template UI to s3://comprehend-semi-structured-documents-us-west-2-123456789012/comprehend-semi-structured-docs-ui-template/my-job-name-20220203-labeling-job-20220203T183118/ui-template/template-2021-04-15.liquid Sagemaker GroundTruth Labeling Job submitted: arn:aws:sagemaker:us-west-2:123456789012:labeling-job/my-job-name-20220203-labeling-job-20220203t183118 (amazon-comprehend-semi-structured-documents-annotation-tools-main) user@3c063014d632 amazon-comprehend-semi-structured-documents-annotation-tools-main %

Beranotasi dengan Ground Truth SageMaker

Sekarang setelah Anda mengonfigurasi sumber daya yang diperlukan dan membuat pekerjaan pelabelan, Anda dapat masuk ke portal pelabelan dan membuat anotasi PDF Anda.

  1. Masuk ke SageMaker konsol menggunakan browser web Chrome atau Firefox.

  2. Pilih Pelabelan tenaga kerja dan pilih Private.

  3. Di bawah Ringkasan tenaga kerja pribadi, pilih URL masuk portal pelabelan yang Anda buat dengan tenaga kerja pribadi Anda. Masuk dengan kredensi yang sesuai.

    Jika Anda tidak melihat lowongan apa pun yang terdaftar, jangan khawatir—perlu beberapa saat untuk memperbarui, tergantung pada jumlah file yang Anda unggah untuk anotasi.

  4. Pilih tugas Anda dan, di sudut kanan atas, pilih Mulai bekerja untuk membuka layar anotasi.

    Anda akan melihat salah satu dokumen Anda terbuka di layar anotasi dan, di atasnya, jenis entitas yang Anda berikan selama penyiapan. Di sebelah kanan jenis entitas Anda, ada panah yang dapat Anda gunakan untuk menavigasi dokumen Anda.

    Layar anotasi Amazon Comprehend.

    Beri anotasi pada dokumen yang terbuka. Anda juga dapat menghapus, membatalkan, atau menandai anotasi Anda secara otomatis pada setiap dokumen; opsi ini tersedia di panel kanan alat anotasi.

    Opsi yang tersedia di panel kanan anotasi Amazon Comprehend.

    Untuk menggunakan tag auto, beri anotasi instance dari salah satu entitas Anda; semua instance lain dari kata tertentu tersebut kemudian secara otomatis dianotasi dengan tipe entitas tersebut.

    Setelah selesai, pilih Kirim di kanan bawah, lalu gunakan panah navigasi untuk pindah ke dokumen berikutnya. Ulangi ini sampai Anda telah membuat anotasi semua PDF Anda.

Setelah Anda membuat anotasi semua dokumen pelatihan, Anda dapat menemukan anotasi dalam format JSON di bucket Amazon S3 di lokasi ini:

/output/your labeling job name/annotations/

Folder keluaran juga berisi file manifes keluaran, yang mencantumkan semua anotasi dalam dokumen pelatihan Anda. Anda dapat menemukan file manifes keluaran Anda di lokasi berikut.

/output/your labeling job name/manifests/