

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Konektor sumber data khusus
<a name="data-source-custom"></a>

Gunakan sumber data kustom ketika Anda memiliki repositori yang Amazon Kendra belum menyediakan konektor sumber data untuk. Anda dapat menggunakannya untuk melihat metrik riwayat proses yang sama yang disediakan sumber Amazon Kendra data bahkan ketika Anda tidak dapat menggunakan Amazon Kendra sumber data untuk menyinkronkan repositori Anda. Gunakan ini untuk membuat pengalaman pemantauan sinkronisasi yang konsisten antara sumber Amazon Kendra data dan sumber khusus. Secara khusus, gunakan sumber data khusus untuk melihat metrik sinkronisasi untuk konektor sumber data yang Anda buat menggunakan [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html)dan [BatchDeleteDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchDeleteDocument.html) APIs.

Untuk memecahkan masalah konektor sumber data kustom Amazon Kendra, lihat. [Mengatasi masalah sumber data](troubleshooting-data-sources.md)

Saat Anda membuat sumber data kustom, Anda memiliki kontrol penuh atas bagaimana dokumen yang akan diindeks dipilih. Amazon Kendra hanya menyediakan informasi metrik yang dapat Anda gunakan untuk memantau pekerjaan sinkronisasi sumber data Anda. Anda harus membuat dan menjalankan crawler yang menentukan dokumen yang diindeks sumber data Anda.

Anda harus menentukan judul utama dokumen Anda menggunakan objek [Dokumen](https://docs.aws.amazon.com/kendra/latest/APIReference/API_Document.html), dan `_source_uri` untuk memiliki `DocumentTitle` dan `DocumentURI` termasuk dalam respons `Query` hasil. [DocumentAttribute](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DocumentAttribute.html)

Anda membuat pengenal untuk sumber data kustom Anda menggunakan konsol atau dengan menggunakan [CreateDataSource](https://docs.aws.amazon.com/kendra/latest/APIReference/API_CreateDataSource.html)API. Untuk menggunakan konsol tersebut, beri nama sumber data Anda, serta deskripsi dan tanda sumber daya, jika perlu. Setelah sumber data dibuat, ID sumber data ditampilkan. Salin ID ini untuk digunakan saat Anda menyinkronkan sumber data dengan indeks.

![\[Form for specifying data source details, including name, description, and optional tags.\]](http://docs.aws.amazon.com/id_id/kendra/latest/dg/images/CustomDataSource.png)


Anda juga dapat membuat sumber data kustom menggunakan `CreateDataSource` API. API mengembalikan ID yang akan digunakan saat Anda menyinkronkan sumber data. Bila Anda menggunakan `CreateDataSource` API untuk membuat sumber data kustom, Anda tidak dapat mengatur`Configuration`, `RoleArn` atau `Schedule` parameter. Jika Anda mengatur parameter ini, Amazon Kendra mengembalikan `ValidationException` pengecualian.

Untuk menggunakan sumber data khusus, buat aplikasi yang bertanggung jawab untuk memperbarui Amazon Kendra indeks. Aplikasi tersebut bergantung pada crawler yang Anda buat. Crawler membaca dokumen di repositori Anda dan menentukan mana yang harus dikirim. Amazon Kendra Aplikasi Anda harus melakukan langkah-langkah berikut: 

1. Crawl repositori Anda dan buat daftar dokumen di repositori Anda yang ditambahkan, diperbarui, atau dihapus.

1. Panggil [StartDataSourceSyncJob](https://docs.aws.amazon.com/kendra/latest/APIReference/API_StartDataSourceSyncJob.html)API untuk memberi sinyal bahwa pekerjaan sinkronisasi dimulai. Anda memberikan ID sumber data untuk mengidentifikasi sumber data yang disinkronkan. Amazon Kendra mengembalikan ID eksekusi untuk mengidentifikasi pekerjaan sinkronisasi tertentu.

1. Panggil [BatchDeleteDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchDeleteDocument.html)API untuk menghapus dokumen dari indeks. Berikan ID sumber data dan ID eksekusi untuk mengidentifikasi sumber data yang sedang disinkronkan dan tugas yang terkait dengan pembaruan ini.

1. Panggil [StopDataSourceSyncJob](https://docs.aws.amazon.com/kendra/latest/APIReference/API_StopDataSourceSyncJob.html)API untuk memberi sinyal akhir dari pekerjaan sinkronisasi. Setelah Anda memanggil `StopDataSourceSyncJob` API, ID eksekusi terkait tidak lagi valid.

1. Panggil [ListDataSourceSyncJobs](https://docs.aws.amazon.com/kendra/latest/APIReference/API_ListDataSourceSyncJobs.html)API dengan pengenal indeks dan sumber data untuk mencantumkan pekerjaan sinkronisasi sumber data dan untuk melihat metrik untuk pekerjaan sinkronisasi.

Setelah menyelesaikan tugas sinkronisasi, Anda dapat memulai tugas sinkronisasi baru. Mungkin perlu waktu beberapa lama sebelum semua dokumen yang dikirim ditambahkan ke indeks. Gunakan `ListDataSourceSyncJobs` API untuk melihat status pekerjaan sinkronisasi. Jika `Status` yang dikembalikan untuk tugas sinkronisasi adalah `SYNCING_INDEXING`, beberapa dokumen masih diindeks. Anda dapat memulai pekerjaan sinkronisasi baru ketika status pekerjaan sebelumnya adalah `FAILED` atau`SUCCEEDED`.

Setelah memanggil `StopDataSourceSyncJob` API, Anda tidak dapat menggunakan pengenal pekerjaan sinkronisasi dalam panggilan ke `BatchPutDocument` or `BatchDeleteDocument` APIs. Jika Anda melakukannya, semua dokumen yang dikirimkan akan dikembalikan dalam pesan `FailedDocuments` respons dari API.

## Atribut yang diperlukan
<a name="custom-required-attributes"></a>

Saat Anda mengirimkan dokumen untuk Amazon Kendra menggunakan `BatchPutDocument` API, setiap dokumen memerlukan dua atribut untuk mengidentifikasi sumber data dan menjalankan sinkronisasi yang dimilikinya. Anda harus memberikan dua atribut berikut untuk memetakan dokumen dari sumber data kustom Anda dengan benar ke Amazon Kendra indeks:
+ `_data_source_id`—Pengidentifikasi sumber data. Ini dikembalikan saat Anda membuat sumber data dengan konsol atau `CreateDataSource` API.
+ `_data_source_sync_job_execution_id`—Pengidentifikasi proses sinkronisasi. Ini dikembalikan saat Anda memulai sinkronisasi indeks dengan `StartDataSourceSyncJob` API.

Berikut ini adalah JSON yang diperlukan untuk indeks dokumen menggunakan sumber data kustom.

```
{
    "Documents": [
        {
            "Attributes": [
                {
                    "Key": "_data_source_id",
                    "Value": {
                        "StringValue": "data source identifier"
                    }
                },
                {
                    "Key": "_data_source_sync_job_execution_id",
                    "Value": {
                        "StringValue": "sync job identifier"
                    }
                }
            ],
            "Blob": "document content",
            "ContentType": "content type",
            "Id": "document identifier",
            "Title": "document title"
        }
    ],
    "IndexId": "index identifier",
    "RoleArn": "IAM role ARN"
}
```

Saat Anda menghapus dokumen dari indeks menggunakan `BatchDeleteDocument` API, Anda perlu menentukan dua bidang berikut dalam `DataSourceSyncJobMetricTarget` parameter:
+ `DataSourceId`—Pengidentifikasi sumber data. Ini dikembalikan saat Anda membuat sumber data dengan konsol atau `CreateDataSource` API.
+ `DataSourceSyncJobId`—Pengidentifikasi proses sinkronisasi. Ini dikembalikan saat Anda memulai sinkronisasi indeks dengan `StartDataSourceSyncJob` API.

Berikut ini adalah JSON yang diperlukan untuk menghapus dokumen dari indeks menggunakan `BatchDeleteDocument` API.

```
{
    "DataSourceSyncJobMetricTarget": {
        "DataSourceId": "data source identifier",
        "DataSourceSyncJobId": "sync job identifier"
    },
    "DocumentIdList": [
        "document identifier"
    ],
    "IndexId": "index identifier"
}
```

## Melihat metrik
<a name="custom-metrics"></a>

Setelah pekerjaan sinkronisasi selesai, Anda dapat menggunakan [DataSourceSyncJobMetrics](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DataSourceSyncJobMetrics.html)API untuk mendapatkan metrik yang terkait dengan pekerjaan sinkronisasi. Gunakan ini untuk memantau sinkronisasi sumber data kustom Anda.

Jika Anda mengirimkan dokumen yang sama beberapa kali, baik sebagai bagian dari `BatchPutDocument` API, `BatchDeleteDocument` API, atau jika dokumen dikirimkan untuk penambahan dan penghapusan, dokumen hanya dihitung satu kali dalam metrik.
+ `DocumentsAdded`—Jumlah dokumen yang dikirimkan menggunakan `BatchPutDocument` API yang terkait dengan pekerjaan sinkronisasi ini ditambahkan ke indeks untuk pertama kalinya. Jika dokumen dikirimkan untuk penambahan lebih dari sekali dalam sinkronisasi, dokumen hanya dihitung satu kali dalam metrik.
+ `DocumentsDeleted`—Jumlah dokumen yang dikirimkan menggunakan `BatchDeleteDocument` API yang terkait dengan pekerjaan sinkronisasi ini dihapus dari indeks. Jika dokumen dikirimkan untuk penghapusan lebih dari sekali dalam sinkronisasi, dokumen hanya dihitung satu kali dalam metrik.
+ `DocumentsFailed`—Jumlah dokumen yang terkait dengan pekerjaan sinkronisasi ini yang gagal pengindeksan. Ini adalah dokumen yang diterima oleh Amazon Kendra untuk pengindeksan tetapi tidak dapat diindeks atau dihapus. Jika dokumen tidak diterima oleh Amazon Kendra, pengenal untuk dokumen dikembalikan dalam properti `FailedDocuments` respon `BatchPutDocument` dan `BatchDeleteDocument` APIs.
+ `DocumentsModified`—Jumlah dokumen yang dimodifikasi yang dikirimkan menggunakan `BatchPutDocument` API yang terkait dengan pekerjaan sinkronisasi ini yang dimodifikasi dalam Amazon Kendra indeks.

Amazon Kendra juga memancarkan Amazon CloudWatch metrik saat mengindeks dokumen. Untuk informasi lebih lanjut, lihat [Memantau Amazon Kendra dengan Amazon CloudWatch](https://docs.aws.amazon.com/kendra/latest/dg/cloudwatch-metrics.html).

Amazon Kendra tidak mengembalikan `DocumentsScanned` metrik untuk sumber data khusus. Ini juga memancarkan CloudWatch metrik yang tercantum dalam dokumen [Metrik untuk Amazon Kendra](https://docs.aws.amazon.com/kendra/latest/dg/cloudwatch-metrics.html#cloudwatch-metrics-data-source) sumber data.

## Pelajari selengkapnya
<a name="custom-learn-more"></a>

Untuk mempelajari lebih lanjut tentang mengintegrasikan Amazon Kendra dengan sumber data kustom Anda, lihat:
+ [Menambahkan sumber data khusus ke Amazon Kendra](https://aws.amazon.com/blogs/machine-learning/adding-custom-data-sources-to-amazon-kendra/)