Erforderliche Attribute Anzeigen von Metriken Weitere Informationen

Amazon Kendra wird ab dem 30. Juli 2026 nicht mehr für Neukunden geöffnet sein. Wenn Sie den Service nutzen möchten, melden Sie sich bitte vor dem 30. Juli an. Informationen zu ähnlichen Funktionen wie finden Amazon Kendra Sie in den Amazon Bedrock Knowledge Bases. Weitere Informationen.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Benutzerdefinierter Datenquellen-Connector

Verwenden Sie eine benutzerdefinierte Datenquelle, wenn Sie über ein Repository verfügen, für das noch Amazon Kendra kein Datenquellen-Connector zur Verfügung steht. Sie können damit dieselben Metriken zum Ausführungsverlauf anzeigen, die Amazon Kendra Datenquellen bereitstellen, auch wenn Sie die Datenquellen nicht zum Synchronisieren Ihrer Amazon Kendra Repositorys verwenden können. Verwenden Sie dies, um eine konsistente Synchronisierungsüberwachung zwischen Amazon Kendra Datenquellen und benutzerdefinierten Datenquellen zu gewährleisten. Verwenden Sie insbesondere eine benutzerdefinierte Datenquelle, um Synchronisierungsmetriken für einen Datenquellen-Connector zu sehen, den Sie mithilfe der BatchDeleteDocumentAPIs BatchPutDocumentund erstellt haben.

Informationen zur Fehlerbehebung bei Ihrem benutzerdefinierten Amazon Kendra-Datenquellen-Connector finden Sie unterProblembehandlung bei Datenquellen.

Wenn Sie eine benutzerdefinierte Datenquelle erstellen, haben Sie die vollständige Kontrolle darüber, wie die zu indizierenden Dokumente ausgewählt werden. Amazon Kendra stellt nur Metrikinformationen bereit, die Sie zur Überwachung Ihrer Datenquellen-Synchronisierungsaufträge verwenden können. Sie müssen den Crawler erstellen und ausführen, der die Dokumente ermittelt, die Ihre Datenquelle indiziert.

Sie müssen den Haupttitel Ihrer Dokumente mithilfe des DocumentURIDocument-Objekts angeben, um das Query Ergebnis zu erhalten DocumentTitle und in die Antwort aufzunehmen. _source_uri DocumentAttribute

Sie erstellen einen Bezeichner für Ihre benutzerdefinierte Datenquelle mithilfe der Konsole oder mithilfe der CreateDataSourceAPI. Um die Konsole zu verwenden, geben Sie Ihrer Datenquelle einen Namen und optional eine Beschreibung und Ressourcen-Tags. Nachdem die Datenquelle erstellt wurde, wird eine Datenquellen-ID angezeigt. Kopieren Sie diese ID, um sie zu verwenden, wenn Sie die Datenquelle mit dem Index synchronisieren.

Formular zur Angabe von Datenquellendetails, einschließlich Name, Beschreibung und optionalen Tags.

Sie können mithilfe der CreateDataSource API auch eine benutzerdefinierte Datenquelle erstellen. Die API gibt eine ID zurück, die Sie verwenden können, wenn Sie die Datenquelle synchronisieren. Wenn Sie die CreateDataSource API verwenden, um eine benutzerdefinierte Datenquelle zu erstellen, können Sie die Configuration Schedule Parameter RoleArn oder nicht festlegen. Wenn Sie diese Parameter festlegen, wird eine ValidationException Ausnahme Amazon Kendra zurückgegeben.

Um eine benutzerdefinierte Datenquelle zu verwenden, erstellen Sie eine Anwendung, die für die Aktualisierung des Amazon Kendra Index verantwortlich ist. Die Anwendung hängt von einem Crawler ab, den Sie erstellen. Der Crawler liest die Dokumente in Ihrem Repository und bestimmt, an welche Dokumente gesendet werden sollen. Amazon Kendra Ihre Anwendung sollte die folgenden Schritte ausführen:

Crawlen Sie Ihr Repository und erstellen Sie eine Liste der Dokumente in Ihrem Repository, die hinzugefügt, aktualisiert oder gelöscht wurden.
Rufen Sie die StartDataSourceSyncJobAPI auf, um zu signalisieren, dass ein Synchronisierungsjob gestartet wird. Sie geben eine Datenquellen-ID an, um die Datenquelle zu identifizieren, die synchronisiert wird. Amazon Kendra gibt eine Ausführungs-ID zurück, um einen bestimmten Synchronisierungsjob zu identifizieren.
Rufen Sie die BatchDeleteDocumentAPI auf, um Dokumente aus dem Index zu entfernen. Sie geben die Datenquellen-ID und die Ausführungs-ID zur Identifizierung der Datenquelle, die synchronisiert wird, und den Auftrag an, dem dieses Update zugeordnet ist.
Rufen Sie die StopDataSourceSyncJobAPI auf, um das Ende des Synchronisierungsauftrags zu signalisieren. Nachdem Sie die StopDataSourceSyncJob API aufgerufen haben, ist die zugehörige Ausführungs-ID nicht mehr gültig.
Rufen Sie die ListDataSourceSyncJobsAPI mit den Index- und Datenquellen-IDs auf, um die Synchronisierungsjobs für die Datenquelle aufzulisten und Metriken für die Synchronisierungsjobs anzuzeigen.

Nachdem Sie einen Synchronisierungsjob beendet haben, können Sie einen neuen Synchronisierungsjob starten. Es kann eine gewisse Zeit dauern, bis dem Index alle übermittelten Dokumente hinzugefügt werden. Verwenden Sie die ListDataSourceSyncJobs API, um den Status des Synchronisierungsauftrags zu überprüfen. Wenn der für den Synchronisierungsauftrag der Wert SYNCING_INDEXING für Status zurückgegeben wird, werden einige Dokumente noch indexiert. Sie können einen neuen Synchronisierungsauftrag starten, wenn der Status des vorherigen Jobs FAILED oder SUCCEEDED lautet.

Nachdem Sie die StopDataSourceSyncJob API aufgerufen haben, können Sie in einem Aufruf der BatchDeleteDocument APIs BatchPutDocument oder keine Sync-Job-ID verwenden. Wenn Sie dies tun, werden alle übermittelten Dokumente in der FailedDocuments-Antwortnachricht der API zurückgegeben.

Erforderliche Attribute

Wenn Sie ein Dokument Amazon Kendra über die BatchPutDocument API einreichen, benötigt jedes Dokument zwei Attribute, um die Datenquelle und den Synchronisierungslauf zu identifizieren, zu dem es gehört. Sie müssen die folgenden beiden Attribute angeben, um Dokumente aus Ihrer benutzerdefinierten Datenquelle korrekt einem Amazon Kendra Index zuzuordnen:

_data_source_id— Der Bezeichner der Datenquelle. Dieser Wert wird zurückgegeben, wenn Sie die Datenquelle mit der Konsole oder der CreateDataSource API erstellen.
_data_source_sync_job_execution_id— Die ID des Synchronisierungslaufs. Dies wird zurückgegeben, wenn Sie die Indexsynchronisierung mit der StartDataSourceSyncJob API starten.

Der folgende JSON-Code ist erforderlich, um ein Dokument mithilfe einer benutzerdefinierten Datenquelle zu indexieren.


{
    "Documents": [
        {
            "Attributes": [
                {
                    "Key": "_data_source_id",
                    "Value": {
                        "StringValue": "data source identifier"
                    }
                },
                {
                    "Key": "_data_source_sync_job_execution_id",
                    "Value": {
                        "StringValue": "sync job identifier"
                    }
                }
            ],
            "Blob": "document content",
            "ContentType": "content type",
            "Id": "document identifier",
            "Title": "document title"
        }
    ],
    "IndexId": "index identifier",
    "RoleArn": "IAM role ARN"
}

Wenn Sie ein Dokument mithilfe der BatchDeleteDocument API aus dem Index entfernen, müssen Sie die folgenden zwei Felder im DataSourceSyncJobMetricTarget Parameter angeben:

DataSourceId— Der Bezeichner der Datenquelle. Dieser Wert wird zurückgegeben, wenn Sie die Datenquelle mit der Konsole oder der CreateDataSource API erstellen.
DataSourceSyncJobId— Die ID des Synchronisierungslaufs. Dies wird zurückgegeben, wenn Sie die Indexsynchronisierung mit der StartDataSourceSyncJob API starten.

Das Folgende ist das JSON, das erforderlich ist, um ein Dokument mithilfe der BatchDeleteDocument API aus dem Index zu löschen.


{
    "DataSourceSyncJobMetricTarget": {
        "DataSourceId": "data source identifier",
        "DataSourceSyncJobId": "sync job identifier"
    },
    "DocumentIdList": [
        "document identifier"
    ],
    "IndexId": "index identifier"
}

Anzeigen von Metriken

Nach Abschluss eines Synchronisierungsauftrags können Sie die DataSourceSyncJobMetricsAPI verwenden, um die mit dem Synchronisierungsjob verknüpften Metriken abzurufen. Verwenden Sie dies, um Ihre benutzerdefinierten Datenquellensynchronisierungen zu überwachen.

Wenn Sie dasselbe Dokument mehrmals einreichen, entweder als Teil der BatchPutDocument API, der API oder wenn das BatchDeleteDocument Dokument sowohl zum Hinzufügen als auch zum Löschen eingereicht wird, wird das Dokument in den Kennzahlen nur einmal gezählt.

DocumentsAdded— Die Anzahl der Dokumente, die über die BatchPutDocument API eingereicht wurden, die mit diesem Synchronisierungsjob verknüpft ist, wurde dem Index zum ersten Mal hinzugefügt. Wird ein Dokument in einer Synchronisierung mehrmals zum Hinzufügen übermittelt, wird das Dokument in den Metriken nur einmal gezählt.
DocumentsDeleted— Die Anzahl der Dokumente, die mithilfe der BatchDeleteDocument API eingereicht wurden, die diesem Synchronisierungsauftrag zugeordnet ist, wurde aus dem Index gelöscht. Wird ein Dokument in einer Synchronisierung mehrmals zum Löschen übermittelt, wird das Dokument in den Metriken nur einmal gezählt.
DocumentsFailed— Die Anzahl der Dokumente, die mit diesem Synchronisierungsauftrag verknüpft sind und bei dem die Indizierung fehlgeschlagen ist. Dies sind Dokumente, die von Amazon Kendra zur Indizierung akzeptiert wurden, aber nicht indexiert oder gelöscht werden konnten. Wenn ein Dokument nicht akzeptiert wird von Amazon Kendra, wird der Bezeichner für das Dokument in der FailedDocuments Antworteigenschaft der APIs BatchPutDocument und BatchDeleteDocument zurückgegeben.
DocumentsModified— Die Anzahl der geänderten Dokumente, die über die diesem Synchronisierungsauftrag zugeordnete BatchPutDocument API übermittelt wurden und die im Amazon Kendra Index geändert wurden.

Amazon Kendra gibt bei der Indizierung von Dokumenten auch Amazon CloudWatch Metriken aus. Weitere Informationen finden Sie unter Überwachung Amazon Kendra mit. Amazon CloudWatch

Amazon Kendra gibt die DocumentsScanned Metrik für benutzerdefinierte Datenquellen nicht zurück. Es gibt auch die im Dokument CloudWatch Metriken für Amazon Kendra Datenquellen aufgeführten Metriken aus.

Weitere Informationen

Weitere Informationen zur Integration Amazon Kendra mit Ihrer benutzerdefinierten Datenquelle finden Sie unter:

Hinzufügen von benutzerdefinierten Datenquellen zu Amazon Kendra

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Confluence-Konnektor V1.0

Benutzerdefinierte Datenquelle (Java)