Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Konektor Google Drive V2.0
Google Drive adalah layanan penyimpanan file berbasis cloud. Anda dapat menggunakan Amazon Kendra untuk mengindeks dokumen dan komentar yang disimpan di drive bersama, My Drives, dan Shared with me folder di sumber data Google Drive Anda. Anda dapat mengindeks dokumen Google Workspace, serta dokumen yang tercantum dalam Jenis dokumentasi. Anda juga dapat menggunakan filter inklusi dan pengecualian untuk mengindeks konten berdasarkan nama file, jenis file, dan jalur file.
Konektor Google Drive V1.0/Google DriveConfiguration API berakhir pada 2023. Kami merekomendasikan untuk bermigrasi ke atau menggunakan konektor Google Drive V2.0/. TemplateConfiguration API
Untuk memecahkan masalah konektor sumber data Amazon Kendra Google Drive, lihat. Mengatasi masalah sumber data
Fitur yang didukung
-
Pemetaan lapangan
-
Kontrol akses pengguna
-
Filter inklusi/pengecualian
-
Sinkronisasi konten penuh dan tambahan
-
Awan pribadi virtual (VPC)
Prasyarat
Sebelum Anda dapat menggunakan Amazon Kendra untuk mengindeks sumber data Google Drive Anda, buat perubahan ini di Google Drive dan AWS
akun Anda.
Di Google Drive, pastikan Anda memiliki:
-
Entah telah diberikan akses oleh peran admin super atau pengguna dengan hak administratif. Anda tidak memerlukan peran admin super untuk diri sendiri jika Anda telah diberikan akses oleh peran admin super.
-
Kredensyal koneksi Akun Layanan Google Drive yang dikonfigurasi yang berisi email akun admin, email klien (email akun layanan), dan kunci pribadi Anda. Lihat dokumentasi Google Cloud tentang membuat dan menghapus kunci akun layanan.
Kami menyarankan Anda secara teratur menyegarkan atau memutar kredensil dan rahasia Anda. Berikan hanya tingkat akses yang diperlukan untuk keamanan Anda sendiri. Kami tidak menyarankan Anda menggunakan kembali kredensyal dan rahasia di seluruh sumber data, dan konektor versi 1.0 dan 2.0 (jika berlaku).
-
Membuat Akun Layanan Google Cloud (akun dengan otoritas yang didelegasikan untuk mengambil identitas pengguna) dengan Aktifkan Delegasi Seluruh Domain G Suite diaktifkan untuk server-to-server autentikasi, lalu buat kunci pribadi menggunakan JSON akun tersebut.
Kunci pribadi harus dibuat setelah pembuatan akun layanan.
-
Menambahkan Admin SDK API dan Google Drive API di akun pengguna Anda.
-
Opsional: Kredensyal koneksi Google Drive OAuth 2.0 yang dikonfigurasi yang berisi ID klien, rahasia klien, dan token penyegaran sebagai kredensyal koneksi untuk pengguna tertentu. Anda memerlukan ini untuk merayapi data akun individual. Lihat dokumentasi Google tentang penggunaan OAuth 2.0 untuk mengakses APIs.
-
Menambahkan (atau meminta pengguna dengan peran admin super untuk menambahkan) OAuth cakupan berikut ke akun layanan Anda menggunakan peran admin super. APICakupan ini diperlukan untuk merayapi semua dokumen, dan informasi kontrol akses (ACL) untuk semua pengguna di domain Google Workspace:
-
https://www.googleapis.com/auth/Drive.readonly—Lihat dan unduh semua file Google Drive Anda
-
https://www.googleapis.com/auth/Drive.metadata.readonly—Lihat metadata untuk file di Google Drive
-
https://www.googleapis.com/auth/admin.directory.group.readonly—ruang lingkup untuk hanya mengambil grup, alias grup, dan informasi anggota. Ini diperlukan untuk Amazon Kendra Identity Crawler.
-
https://www.googleapis.com/auth/admin.directory.user.readonly—ruang lingkup untuk hanya mengambil pengguna atau alias pengguna. Ini diperlukan untuk mencantumkan pengguna di Perayap Amazon Kendra Identitas dan untuk pengaturanACLs.
-
https://www.googleapis.com/auth/Cloud-platform—ruang lingkup untuk menghasilkan token akses untuk mengambil konten file Google Drive besar.
-
https://www.googleapis.com/auth/Forms.body.ReadOnly—ruang lingkup untuk mengambil data dari Google Formulir.
Untuk mendukung FormulirAPI, tambahkan lingkup tambahan berikut:
-
Memeriksa setiap dokumen unik di Google Drive dan di seluruh sumber data lain yang Anda rencanakan untuk digunakan untuk indeks yang sama. Setiap sumber data yang ingin Anda gunakan untuk indeks tidak boleh berisi dokumen yang sama di seluruh sumber data. Dokumen IDs bersifat global untuk indeks dan harus unik per indeks.
Di dalam Anda Akun AWS, pastikan Anda memiliki:
-
Membuat Amazon Kendra indeks dan, jika menggunakanAPI, mencatat ID indeks.
-
Membuat IAM peran untuk sumber data Anda dan, jika menggunakanAPI, catat ARN IAM peran tersebut.
Jika Anda mengubah jenis otentikasi dan kredensyal, Anda harus memperbarui IAM peran Anda untuk mengakses ID rahasia yang benar AWS Secrets Manager .
-
Menyimpan kredensi otentikasi Google Drive Anda secara AWS Secrets Manager rahasia dan, jika menggunakanAPI, catat rahasianyaARN.
Kami menyarankan Anda secara teratur menyegarkan atau memutar kredensil dan rahasia Anda. Berikan hanya tingkat akses yang diperlukan untuk keamanan Anda sendiri. Kami tidak menyarankan Anda menggunakan kembali kredensyal dan rahasia di seluruh sumber data, dan konektor versi 1.0 dan 2.0 (jika berlaku).
Jika Anda tidak memiliki IAM peran atau rahasia yang ada, Anda dapat menggunakan konsol untuk membuat IAM peran dan Secrets Manager rahasia baru saat Anda menghubungkan sumber data Google Drive Anda Amazon Kendra. Jika Anda menggunakanAPI, Anda harus memberikan IAM peran dan Secrets Manager rahasia yang ada, dan ID indeks. ARN
Instruksi koneksi
Untuk terhubung Amazon Kendra ke sumber data Google Drive Anda, Anda harus memberikan rincian yang diperlukan dari sumber data Google Drive Anda sehingga Amazon Kendra dapat mengakses data Anda. Jika Anda belum mengkonfigurasi Google Drive untuk Amazon Kendra lihatPrasyarat.
- Console
-
Untuk terhubung Amazon Kendra ke Google Drive
-
Masuk ke AWS Management Console dan buka Amazon Kendra konsol.
-
Dari panel navigasi kiri, pilih Indeks dan kemudian pilih indeks yang ingin Anda gunakan dari daftar indeks.
Anda dapat memilih untuk mengonfigurasi atau mengedit pengaturan kontrol akses Pengguna Anda di bawah Pengaturan indeks.
-
Pada halaman Memulai, pilih Tambahkan sumber data.
-
Pada halaman Tambah sumber data, pilih konektor Google Drive, lalu pilih Tambah konektor. Jika menggunakan versi 2 (jika ada), pilih konektor Google Drive dengan tag “V2.0".
-
Pada halaman Tentukan detail sumber data, masukkan informasi berikut:
-
Di Nama dan deskripsi, untuk Nama sumber data —Masukkan nama untuk sumber data Anda. Anda dapat memasukkan tanda hubung tetapi bukan spasi.
-
(Opsional) Deskripsi —Masukkan deskripsi opsional untuk sumber data Anda.
-
Dalam Bahasa default —Pilih bahasa untuk memfilter dokumen Anda untuk indeks. Kecuali Anda menentukan sebaliknya, bahasa default ke bahasa Inggris. Bahasa yang ditentukan dalam metadata dokumen mengesampingkan bahasa yang dipilih.
-
Di Tag, untuk Tambahkan tag baru —Sertakan tag opsional untuk mencari dan memfilter sumber daya Anda atau melacak AWS biaya Anda.
-
Pilih Berikutnya.
-
Pada halaman Tentukan akses dan keamanan, masukkan informasi berikut:
-
Otorisasi —Mengaktifkan atau menonaktifkan informasi daftar kontrol akses (ACL) untuk dokumen Anda, jika Anda memiliki ACL dan ingin menggunakannya untuk kontrol akses. ACLIni menentukan dokumen mana yang dapat diakses pengguna dan grup. ACLInformasi tersebut digunakan untuk memfilter hasil pencarian berdasarkan akses pengguna atau grup mereka ke dokumen. Untuk informasi selengkapnya, lihat Pemfilteran konteks pengguna.
-
Untuk Otentikasi —Pilih antara akun layanan Google dan autentikasi OAuth 2.0 berdasarkan kasus penggunaan Anda.
-
AWS
Secrets Manager rahasia —Pilih rahasia yang ada, atau buat Secrets Manager rahasia baru untuk menyimpan kredensyal otentikasi Google Drive Anda. Jika Anda memilih untuk membuat rahasia baru, jendela AWS
Secrets Manager rahasia terbuka.
-
Jika Anda memilih akun layanan Google, masukkan nama untuk rahasia Anda, ID email pengguna admin atau “Pengguna Akun Layanan” dalam konfigurasi akun layanan Anda (email admin), ID email akun layanan (email klien), dan kunci pribadi yang Anda buat di akun layanan Anda.
Simpan dan tambahkan rahasia Anda
-
Jika Anda memilih otentikasi OAuth 2.0, masukkan nama untuk rahasia, ID klien, rahasia klien, dan token penyegaran yang Anda buat di OAuth akun Anda. Id email pengguna (pengguna yang detail koneksinya dikonfigurasi) akan ditetapkan sebagaiACL. Konektor tidak menyetel info utama pengguna/grup lainnya ACL karena keterbatasan. API
Simpan dan tambahkan rahasia Anda.
-
Virtual Private Cloud (VPC) —Anda dapat memilih untuk menggunakan file. VPC Jika demikian, Anda harus menambahkan Subnet dan grup VPC keamanan.
-
(Hanya untuk pengguna otentikasi akun layanan Google)
Perayap identitas —Tentukan apakah akan mengaktifkan crawler Amazon Kendra identitas. Perayap identitas menggunakan informasi daftar kontrol akses (ACL) untuk dokumen Anda untuk memfilter hasil penelusuran berdasarkan akses pengguna atau grup mereka ke dokumen. Jika Anda memiliki dokumen dan memilih ACL untuk menggunakan dokumen AndaACL, Anda juga dapat memilih untuk mengaktifkan crawler Amazon Kendra identitas untuk mengonfigurasi pemfilteran konteks pengguna dari hasil penelusuran. Jika tidak, jika crawler identitas dimatikan, semua dokumen dapat dicari secara publik. Jika Anda ingin menggunakan kontrol akses untuk dokumen Anda dan crawler identitas dimatikan, Anda dapat menggunakan PutPrincipalMappingAPIuntuk mengunggah informasi akses pengguna dan grup untuk pemfilteran konteks pengguna.
-
IAM peran —Pilih peran yang sudah ada atau buat IAM IAM peran baru untuk mengakses kredensi repositori dan mengindeks konten Anda.
IAM peran yang digunakan untuk indeks tidak dapat digunakan untuk sumber data. Jika Anda tidak yakin apakah peran yang ada digunakan untuk indeks atauFAQ, pilih Buat peran baru untuk menghindari kesalahan.
-
Pilih Berikutnya.
-
Pada halaman Konfigurasi pengaturan sinkronisasi, masukkan informasi berikut:
-
Sinkronkan konten —Pilih opsi atau konten mana yang ingin dirayapi. Anda dapat memilih untuk merayapi Drive Saya (folder pribadi), Drive Bersama (folder yang dibagikan dengan Anda), atau keduanya. Anda juga dapat menyertakan komentar file.
-
Dalam Konfigurasi tambahan - opsional Anda juga dapat memasukkan informasi opsional berikut:
-
Ukuran file maksimum —Tetapkan batas ukuran maksimum file MBs yang akan dirayapi.
-
Email pengguna —Tambahkan email pengguna yang ingin Anda sertakan atau kecualikan.
-
Drive bersama —Tambahkan nama drive bersama yang ingin Anda sertakan atau kecualikan.
-
Jenis pantomim —Tambahkan MIME tipe yang ingin Anda sertakan atau kecualikan.
-
Pola regex entitas —Tambahkan pola ekspresi reguler untuk menyertakan atau mengecualikan lampiran tertentu untuk semua entitas yang didukung. Anda dapat menambahkan hingga 100 pola.
Anda dapat mengonfigurasi pola sertakan/mengecualikan regex untuk nama File, Jenis file, dan jalur File.
-
Nama file — Nama file yang akan disertakan atau dikecualikan. Misalnya, untuk mengindeks file dengan namateamroster.txt
, berikanteamroster
.
-
Jenis file — Jenis file yang akan disertakan atau dikecualikan. Misalnya, .pdf .txt .docx.
-
Jalur file — Jalur file yang akan disertakan atau dikecualikan. Misalnya, untuk mengindeks file hanya di dalam folder Products list
drive, sediakan/Products list
.
-
Mode sinkronisasi —Pilih cara Anda ingin memperbarui indeks saat konten sumber data Anda berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda.
-
Sinkronisasi penuh: Indeks baru semua konten, ganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.
-
Sinkronisasi baru yang dimodifikasi: Indeks hanya konten baru dan yang dimodifikasi setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
-
Sinkronisasi baru, dimodifikasi, dihapus: Indeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra
dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
Google Drive API tidak mendukung pengambilan komentar dari file yang dihapus secara permanen. Komentar dari file yang dibuang dapat diambil kembali. Ketika file dibuang, konektor akan menghapus komentar dari indeks. Amazon Kendra
-
Di Jadwal lari Sinkronisasi, untuk Frekuensi —pilih seberapa sering menyinkronkan konten sumber data Anda dan memperbarui indeks Anda.
-
Di Sync run history, pilih untuk menyimpan laporan yang dibuat secara otomatis di Amazon S3 saat menyinkronkan sumber data Anda. Ini berguna untuk melacak masalah saat menyinkronkan sumber data Anda.
-
Pilih Berikutnya.
-
Pada halaman Setel pemetaan bidang, masukkan informasi berikut:
-
Untuk File —Pilih dari bidang sumber data default yang Amazon Kendra dihasilkan yang ingin Anda petakan ke indeks Anda.
Google Drive API tidak mendukung pembuatan bidang khusus. Pemetaan bidang khusus tidak tersedia untuk konektor Google Drive.
-
Pilih Berikutnya.
-
Pada halaman Tinjau dan buat, periksa apakah informasi yang Anda masukkan sudah benar dan kemudian pilih Tambahkan sumber data. Anda juga dapat memilih untuk mengedit informasi Anda dari halaman ini. Sumber data Anda akan muncul di halaman Sumber data setelah sumber data berhasil ditambahkan.
- API
-
Untuk terhubung Amazon Kendra ke Google Drive
Anda harus menentukan skema sumber data menggunakan. JSON TemplateConfigurationAPI Anda harus memberikan informasi berikut ini:
-
Sumber data —Tentukan tipe sumber data seperti GOOGLEDRIVEV2
saat Anda menggunakan TemplateConfigurationJSONskema. Juga tentukan sumber data seperti TEMPLATE
saat Anda memanggil CreateDataSource API.
-
Jenis otentikasi —Tentukan apakah akan menggunakan otentikasi akun layanan atau OAuth otentikasi 2.0.
-
Mode sinkronisasi —Tentukan cara Amazon Kendra memperbarui indeks Anda saat konten sumber data Anda berubah. Saat Anda menyinkronkan sumber data Amazon Kendra untuk pertama kalinya, semua konten dirayapi dan diindeks secara default. Anda harus menjalankan sinkronisasi penuh data Anda jika sinkronisasi awal Anda gagal, bahkan jika Anda tidak memilih sinkronisasi penuh sebagai opsi mode sinkronisasi Anda. Anda dapat memilih antara:
-
FORCED_FULL_CRAWL
untuk mengindeks semua konten baru, mengganti konten yang ada setiap kali sumber data Anda disinkronkan dengan indeks Anda.
-
FULL_CRAWL
untuk mengindeks hanya konten baru, dimodifikasi, dan dihapus setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
-
CHANGE_LOG
untuk mengindeks hanya konten baru dan yang dimodifikasi setiap kali sumber data Anda disinkronkan dengan indeks Anda. Amazon Kendra dapat menggunakan mekanisme sumber data Anda untuk melacak perubahan konten dan mengindeks konten yang berubah sejak sinkronisasi terakhir.
Google Drive API tidak mendukung pengambilan komentar dari file yang dihapus secara permanen. Komentar dari file yang dibuang dapat diambil kembali. Ketika file dibuang, konektor akan menghapus komentar dari indeks. Amazon Kendra
-
Nama Sumber Daya Amazon Rahasia (ARN) —Berikan Nama Sumber Daya Amazon (ARN) Secrets Manager rahasia yang berisi kredensyal otentikasi yang Anda buat di akun Google Drive Anda. Jika Anda menggunakan otentikasi akun layanan Google, rahasia disimpan dalam JSON struktur dengan kunci berikut:
{
"clientEmail": "user account email
",
"adminAccountEmail": "service account email
",
"privateKey": "private key
"
}
Jika Anda menggunakan otentikasi OAuth 2.0, rahasia disimpan dalam JSON struktur dengan kunci berikut:
{
"clientID": "OAuth client ID
",
"clientSecret": "client secret
",
"refreshToken": "refresh token
"
}
-
IAM peran —Tentukan RoleArn
kapan Anda menelepon CreateDataSource
untuk memberikan IAM peran dengan izin untuk mengakses Secrets Manager rahasia Anda dan memanggil publik yang diperlukan APIs untuk konektor Google Drive dan. Amazon Kendra Untuk informasi selengkapnya, lihat IAM peran untuk sumber data Google Drive.
Anda juga dapat menambahkan fitur opsional berikut:
-
Virtual Private Cloud (VPC) —Tentukan VpcConfiguration
kapan Anda meneleponCreateDataSource
. Untuk informasi selengkapnya, lihat Mengkonfigurasi Amazon Kendra untuk menggunakan Amazon VPC.
-
Drive Saya, Drive Bersama, Komentar —Anda dapat menentukan apakah akan merayapi jenis konten ini.
-
Filter inklusi dan pengecualian —Anda dapat menentukan apakah akan menyertakan atau mengecualikan akun pengguna tertentu, drive bersama, dan MIME jenis.
Sebagian besar sumber data menggunakan pola ekspresi reguler, yang merupakan pola inklusi atau pengecualian yang disebut sebagai filter. Jika Anda menentukan filter inklusi, hanya konten yang cocok dengan filter inklusi yang diindeks. Dokumen apa pun yang tidak cocok dengan filter inklusi tidak diindeks. Jika Anda menentukan filter inklusi dan pengecualian, dokumen yang cocok dengan filter pengecualian tidak akan diindeks, meskipun sesuai dengan filter inklusi.
-
Daftar kontrol akses (ACL) —Tentukan apakah akan merayapi ACL informasi untuk dokumen Anda, jika Anda memiliki ACL dan ingin menggunakannya untuk kontrol akses. ACLIni menentukan dokumen mana yang dapat diakses pengguna dan grup. ACLInformasi tersebut digunakan untuk memfilter hasil pencarian berdasarkan akses pengguna atau grup mereka ke dokumen. Untuk informasi selengkapnya, lihat Pemfilteran konteks pengguna.
-
Perayap identitas —Tentukan apakah akan mengaktifkan crawler Amazon Kendra identitas. Perayap identitas menggunakan informasi daftar kontrol akses (ACL) untuk dokumen Anda untuk memfilter hasil penelusuran berdasarkan akses pengguna atau grup mereka ke dokumen. Jika Anda memiliki dokumen dan memilih ACL untuk menggunakan dokumen AndaACL, Anda juga dapat memilih untuk mengaktifkan crawler Amazon Kendra identitas untuk mengonfigurasi pemfilteran konteks pengguna dari hasil penelusuran. Jika tidak, jika crawler identitas dimatikan, semua dokumen dapat dicari secara publik. Jika Anda ingin menggunakan kontrol akses untuk dokumen Anda dan crawler identitas dimatikan, Anda dapat menggunakan PutPrincipalMappingAPIuntuk mengunggah informasi akses pengguna dan grup untuk pemfilteran konteks pengguna.
-
Pemetaan bidang —Pilih untuk memetakan bidang sumber data Google Drive Anda ke bidang indeks Anda Amazon Kendra . Untuk informasi lebih lanjut, lihat Memetakan bidang sumber data.
Bidang badan dokumen atau badan dokumen yang setara untuk dokumen Anda diperlukan Amazon Kendra untuk mencari dokumen Anda. Anda harus memetakan nama bidang badan dokumen Anda di sumber data Anda ke nama bidang indeks_document_body
. Semua kolom lain bersifat opsional.
Untuk daftar JSON kunci penting lainnya untuk dikonfigurasi, lihat skema template Google Drive.
Catatan
-
Pemetaan bidang khusus tidak tersedia untuk konektor Google Drive karena UI Google Drive tidak mendukung pembuatan bidang khusus.
-
Google Drive API tidak mendukung pengambilan komentar dari file yang dihapus secara permanen. Komentar dapat diambil kembali, bagaimanapun, untuk file yang dibuang. Ketika file dibuang, Amazon Kendra konektor akan menghapus komentar dari indeks. Amazon Kendra
-
Google Drive API tidak mengembalikan komentar yang ada dalam file.docx.
-
Jika izin untuk tertentu Google document (dokumen, spreadsheet, slide, dll) diatur ke Akses umum: Siapa pun yang memiliki tautan atau Dibagikan ke domain perusahaan tertentu Anda, dokumen tidak akan terlihat oleh pengguna pencarian Amazon Kendra sampai pengguna yang membuat kueri telah mengakses dokumen.