前提条件ステップ 1: パイプラインロールを設定するステップ 2: パイプラインを作成するデータ整合性データ型のマッピング制限事項推奨される CloudWatch アラーム

Amazon DocumentDB での OpenSearch Ingestion パイプラインの使用

DocumentDB プラグインを使用して、作成、更新、削除などのドキュメントの変更を Amazon OpenSearch Service にストリーミングできます。パイプラインは、可能な場合は変更データキャプチャ (CDC)、または大規模で低レイテンシーのストリーミングのための API ポーリングをサポートします。

完全な初期スナップショットの有無にかかわらず、データを処理できます。完全なスナップショットは、Amazon DocumentDB コレクション全体をキャプチャし、Amazon S3 にアップロードします。次に、パイプラインは 1 つ以上の OpenSearch インデックスにデータを送信します。スナップショットを取り込むと、パイプラインは継続的な変更を同期して一貫性を維持し、最終的にほぼリアルタイムの更新に追いつきます。

別のソースから完全なスナップショットをすでに取得している場合、または新しいイベントのみを処理する必要がある場合は、スナップショットなしでストリーミングできます。この場合、パイプラインは最初の一括ロードなしで Amazon DocumentDB 変更ストリームから直接読み取ります。

ストリームを有効にする場合は、Amazon DocumentDB コレクションで変更ストリームを有効にする必要があります。ただし、全ロードまたはエクスポートのみを実行する場合は、変更ストリームは必要ありません。

前提条件

OpenSearch Ingestion パイプラインを作成する前に、次の手順を実行します。

Amazon DocumentDB 開発者ガイドの「Amazon DocumentDB クラスターを作成する」の手順に従って、データを読み取るアクセス許可を持つ Amazon DocumentDB クラスターを作成します。CDC インフラストラクチャを使用する場合は、変更ストリームを発行するように Amazon DocumentDB クラスターを設定します。
Amazon DocumentDB クラスターで TLS を有効にします。
OpenSearch Ingestion で使用するプライベートアドレススペースの VPC CIDR を設定します。
を使用して Amazon DocumentDB クラスターで認証を設定します AWS Secrets Manager。「Automatically rotating passwords for Amazon DocumentDB」の手順に従って、シークレットローテーションを有効にします。詳細については、「Database Access Using Role-Based Access Control」と「Security in Amazon DocumentDB」を参照してください。
変更ストリームを使用して Amazon DocumentDB コレクションのデータ変更をサブスクライブする場合は、change_stream_log_retention_duration パラメータを使用して保持期間を最大 7 日間延長することで、データ損失を回避します。変更ストリームイベントは、イベントが記録されてからデフォルトで 3 時間保存されます。これは、大規模なコレクションには十分な時間ではありません。変更ストリーム保持期間を変更するには、「Modifying the Change Stream Log Retention Duration」を参照してください。
OpenSearch Service ドメインまたは OpenSearch Serverless コレクションを作成します。詳細については、「OpenSearch Service ドメインの作成」および「コレクションの作成」を参照してください。
リソースベースのポリシーをドメインにアタッチするか、データアクセスポリシーをコレクションにアタッチします。これらのアクセスポリシーにより、OpenSearch Ingestion は Amazon DocumentDB クラスターからドメインまたはコレクションにデータを書き込むことができます。

次のドメインアクセスポリシーの例では、次の手順で作成するパイプラインロールに、ドメインへのデータの書き込みが許可されています。必ず独自の ARN で resource を更新してください。
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::444455556666:role/pipeline-role" }, "Action": [ "es:DescribeDomain", "es:ESHttp*" ], "Resource": [ "arn:aws:es:us-east-1:111122223333:domain/domain-name" ] } ] }
コレクションまたはドメインへの書き込みデータにアクセスするための正しいアクセス許可を持つ IAM ロールを作成するには、「Amazon OpenSearch Ingestion のロールとユーザーの設定」を参照してください。

ステップ 1: パイプラインロールを設定する

Amazon DocumentDB パイプラインの前提条件を設定したら、パイプライン設定で使用するパイプラインロールを設定し、そのロールに次の Amazon DocumentDB 許可を追加します。

JSON


{
    "Version":"2012-10-17",
    "Statement": [
        {
            "Sid": "allowS3ListObjectAccess",
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::s3-bucket"
            ],
            "Condition": {
                "StringLike": {
                    "s3:prefix": "s3-prefix/*"
                }
            }
        },
        {
            "Sid": "allowReadAndWriteToS3ForExportStream",
            "Effect": "Allow",
            "Action": [
                "s3:PutObject",
                "s3:GetObject",
                "s3:DeleteObject"
            ],
            "Resource": [
                "arn:aws:s3:::s3-bucket/s3-prefix/*"
            ]
        },
        {
            "Sid": "SecretsManagerReadAccess",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-1:111122223333:secret:secret-name"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:AttachNetworkInterface",
                "ec2:CreateNetworkInterface",
                "ec2:CreateNetworkInterfacePermission",
                "ec2:DeleteNetworkInterface",
                "ec2:DeleteNetworkInterfacePermission",
                "ec2:DetachNetworkInterface",
                "ec2:DescribeNetworkInterfaces"
            ],
            "Resource": [
                "arn:aws:ec2:*:111122223333:network-interface/*",
                "arn:aws:ec2:*:111122223333:subnet/*",
                "arn:aws:ec2:*:111122223333:security-group/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:DescribeDhcpOptions",
                "ec2:DescribeRouteTables",
                "ec2:DescribeSecurityGroups",
                "ec2:DescribeSubnets",
                "ec2:DescribeVpcs",
                "ec2:Describe*"
            ],
            "Resource": "*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:CreateTags"
            ],
            "Resource": "arn:aws:ec2:*:*:network-interface/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/OSISManaged": "true"
                }
            }
        }
    ]
}

OpenSearch Ingestion パイプラインの作成に使用する IAM ロールには、上記の Amazon EC2 アクセス許可を指定する必要があります。これは、パイプラインがこれらのアクセス許可を使用して VPC 内のネットワークインターフェイスを作成および削除するためです。パイプラインは、このネットワークインターフェイスを介してのみ Amazon DocumentDB クラスターにアクセスできます。

ステップ 2: パイプラインを作成する

そして、ソースとして Amazon DocumentDB を指定する OpenSearch Ingestion パイプラインを次のように設定できます。インデックス名を入力するには、getMetadata 関数がメタデータキーとして documentdb_collection を使用することに注意してください。getMetadata メソッドなしで別のインデックス名を使用する場合は、設定 index: "my_index_name" を使用できます。


version: "2"
documentdb-pipeline:
  source:
    documentdb:
      acknowledgments: true
      host: "https://docdb-cluster-id.us-east-1.docdb.amazonaws.com"
      port: 27017
      authentication:
        username: ${{aws_secrets:secret:username}}
        password: ${{aws_secrets:secret:password}}
      aws:
      s3_bucket: "bucket-name"
      s3_region: "bucket-region" 
      s3_prefix: "path" #optional path for storing the temporary data
      collections:
        - collection: "dbname.collection"
          export: true
          stream: true
  sink:
  - opensearch:
      hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"]
      index: "${getMetadata(\"documentdb_collection\")}"
      index_type: custom
      document_id: "${getMetadata(\"primary_key\")}"
      action: "${getMetadata(\"opensearch_action\")}"
      document_version: "${getMetadata(\"document_version\")}"
      document_version_type: "external"
extension:
  aws:
    secrets:
      secret:
        secret_id: "my-docdb-secret"
        region: "us-east-1"
        refresh_interval: PT1H

事前設定された Amazon DocumentDB ブループリントを使用して、このパイプラインを作成できます。詳細については、「ブループリントの使用」を参照してください。

を使用してパイプライン AWS マネジメントコンソールを作成する場合は、ソースとして Amazon DocumentDB を使用するには、パイプラインを VPC にアタッチする必要があります。これを行うには、[ソースネットワークオプション] セクションを見つけ、[VPC にアタッチ] チェックボックスをオンにして、提供されたデフォルトオプションのいずれかから CIDR を選択します。CIDR ブロックは /24 プレフィックスの長さを使用する必要があります。RFC 1918 のベストプラクティスで定義されているように、プライベートアドレス空間から任意の /24 CIDR を使用できます。

カスタム CIDR を指定するには、ドロップダウンメニューから [その他] を選択します。OpenSearch Ingestion と Amazon DocumentDB 間の IP アドレスの衝突を回避するには、Amazon DocumentDB VPC の CIDR が OpenSearch Ingestion の CIDR と異なることを確認してください。

詳細については、「Configuring VPC access for a pipeline」を参照してください。

データ整合性

パイプラインは、Amazon DocumentDB クラスターから変更を継続的にポーリングまたは受信し、OpenSearch インデックス内の対応するドキュメントを更新することで、データ整合性を確保します。

OpenSearch Ingestion は、データの耐久性を確保するためにエンドツーエンドの確認応答をサポートしています。パイプラインがスナップショットまたはストリームを読み取る際に、並列処理用のパーティションが動的に作成されます。パイプラインは、OpenSearch ドメインまたはコレクション内のすべてのレコードを取り込んだ後に確認応答を受信すると、パーティションを完了としてマークします。

OpenSearch Serverless 検索コレクションに取り込みたい場合は、パイプラインでドキュメント ID を生成できます。OpenSearch Serverless 時系列コレクションに取り込みたい場合は、パイプラインがドキュメント ID を生成しないため、パイプラインシンク設定の document_id: "${getMetadata(\"primary_key\")}" を省略する必要があることに留意してください。

また、OpenSearch Ingestion パイプラインは、着信イベントアクションを、対応する一括インデックス作成アクションにマッピングして、ドキュメントの取り込みをサポートします。これにより、データ整合性が維持され、Amazon DocumentDB 内のすべてのデータ変更が OpenSearch 内の対応するドキュメントの変更とリコンサイルされます。

データ型のマッピング

OpenSearch Service は、各着信ドキュメントのデータ型を、Amazon DocumentDB の対応するデータ型に動的にマッピングします。次の表は、OpenSearch Service がさまざまなデータ型を自動的にマッピングする方法を示しています。

データ型	OpenSearch	Amazon DocumentDB
整数	OpenSearch は Amazon DocumentDB 整数値を OpenSearch 整数に自動的にマッピングします。 OpenSearch は、最初に送信されたドキュメントに基づいてフィールドを動的にマッピングします。Amazon DocumentDB に同じ属性のデータ型が混在している場合、自動マッピングが失敗する可能性があります。例えば、最初のドキュメントが long という属性を持っており、後のドキュメントがその同じ属性を integer として持っている場合、OpenSearch は 2 つ目のドキュメントの取り込みに失敗します。このような場合は、次のような、最も柔軟性が高い数値型を選択する明示的なマッピングテンプレートを提供する必要があります。 `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB は整数をサポートしています。
Long	OpenSearch は、Amazon DocumentDB の long 値を OpenSearch の long に自動的にマッピングします。 OpenSearch は、最初に送信されたドキュメントに基づいてフィールドを動的にマッピングします。Amazon DocumentDB に同じ属性のデータ型が混在している場合、自動マッピングが失敗する可能性があります。例えば、最初のドキュメントが long という属性を持っており、後のドキュメントがその同じ属性を integer として持っている場合、OpenSearch は 2 つ目のドキュメントの取り込みに失敗します。このような場合は、次のような、最も柔軟性が高い数値型を選択する明示的なマッピングテンプレートを提供する必要があります。 `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB は long をサポートしています。
String	OpenSearch は、文字列の値をテキストとして自動的にマッピングします。状況によっては (列挙型の値など)、キーワード型にマッピングできます。次の例は、`PartType` という名前の Amazon DocumentDB 属性を、OpenSearch キーワードにマッピングする方法を示しています。 `{ "template": { "mappings": { "properties": { "PartType": { "type": "keyword" } } } } }`	Amazon DocumentDB は文字列をサポートしています。
Double	OpenSearch は、Amazon DocumentDB の double 値を OpenSearch の double に自動的にマッピングします。 OpenSearch は、最初に送信されたドキュメントに基づいてフィールドを動的にマッピングします。Amazon DocumentDB に同じ属性のデータ型が混在している場合、自動マッピングが失敗する可能性があります。例えば、最初のドキュメントが long という属性を持っており、後のドキュメントがその同じ属性を integer として持っている場合、OpenSearch は 2 つ目のドキュメントの取り込みに失敗します。このような場合は、次のような、最も柔軟性が高い数値型を選択する明示的なマッピングテンプレートを提供する必要があります。 `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB は double をサポートしています。
日付	デフォルトでは、日付は OpenSearch の整数にマッピングされます。カスタムマッピングテンプレートを定義して、日付を OpenSearch 日付にマッピングできます。 `{ "template": { "mappings": { "properties": { "myDateField": { "type": "date", "format": "epoch_second" } } } } }`	Amazon DocumentDB は日付をサポートしています。
タイムスタンプ	デフォルトでは、タイムスタンプは OpenSearch の整数にマッピングされます。カスタムマッピングテンプレートを定義して、日付を OpenSearch 日付にマッピングできます。 `{ "template": { "mappings": { "properties": { "myTimestampField": { "type": "date", "format": "epoch_second" } } } } }`	Amazon DocumentDB はタイムスタンプをサポートしています。
ブール値	OpenSearch は、Amazon DocumentDB のブール型を、OpenSearch のブール型にマッピングします。	Amazon DocumentDB はブール型属性をサポートしています。
10 進数	OpenSearch は、Amazon DocumentDB のマップ属性を、ネストされたフィールドにマッピングします。同じマッピングがネストされたフィールド内でも適用されます。次の例では、ネストされたフィールドの文字列を、OpenSearch のキーワード型にマッピングします: `{ "template": { "mappings": { "properties": { "myDecimalField": { "type": "double" } } } } }` このカスタムマッピングを使用すると、フィールドをクエリして、倍レベルの精度で集計できます。元の値は、OpenSearch ドキュメントの `_source` プロパティの完全な精度を保持します。このマッピングがない場合、OpenSearch はデフォルトでテキストを使用します。	Amazon DocumentDB は小数をサポートしています。
正規表現	正規表現タイプはネストされたフィールドを作成します。例えば、`<myFieldName>.pattern`や`<myFieldName>.options` などです。	Amazon DocumentDB は正規表現をサポートしています。
バイナリデータ	OpenSearch は、Amazon DocumentDB バイナリデータを OpenSearch テキストに自動的にマッピングします。これらを OpenSearch のバイナリフィールドとして書き込むためのマッピングを提供できます。次の例は、`imageData` という名前の Amazon DocumentDB フィールドを、OpenSearch バイナリフィールドにマッピングする方法を示しています。 `{ "template": { "mappings": { "properties": { "imageData": { "type": "binary" } } } } }`	Amazon DocumentDB はバイナリデータフィールドをサポートしています。
ObjectId	objectId 型のフィールドは OpenSearch テキストフィールドにマッピングされます。値は objectId の文字列表現になります。	Amazon DocumentDB は objectIds をサポートしています。
Null	OpenSearch は、Amazon DocumentDB の null 型のドキュメントを取り込むことができます。値は null 値としてドキュメントに保存されます。この型にはマッピングがなく、このフィールドにはインデックスが付けられず、検索もできません。同じ属性名が null 型に使用され、後で文字列などの別の型に変更される場合、OpenSearch は、最初の null 以外の値について動的マッピングを作成します。後続の値は引き続き Amazon DocumentDB の null 値にすることができます。	Amazon DocumentDB は null 型のフィールドをサポートしています。
未定義	OpenSearch は、Amazon DocumentDB 未定義型のドキュメントを取り込むことができます。値は null 値としてドキュメントに保存されます。この型にはマッピングがなく、このフィールドにはインデックスが付けられず、検索もできません。同じフィールド名が未定義型に使用され、後で文字列などの別の型に変更される場合、OpenSearch は、最初の未定義以外の値について動的マッピングを作成します。後続の値は引き続き Amazon DocumentDB の未定義の値にすることができます。	Amazon DocumentDB は未定義型のフィールドをサポートしています。
MinKey	OpenSearch は、Amazon DocumentDB の minKey 型のドキュメントを取り込むことができます。値は null 値としてドキュメントに保存されます。この型にはマッピングがなく、このフィールドにはインデックスが付けられず、検索もできません。同じフィールド名が minKey 型に使用され、後で文字列などの別の型に変更される場合、OpenSearch は、最初の minKey 以外の値について動的マッピングを作成します。後続の値は引き続き Amazon DocumentDB の minKey 値にすることができます。	Amazon DocumentDB は minKey 型のフィールドをサポートしています。
MaxKey	OpenSearch は、Amazon DocumentDB の maxKey 型のドキュメントを取り込むことができます。値は null 値としてドキュメントに保存されます。この型にはマッピングがなく、このフィールドにはインデックスが付けられず、検索もできません。同じフィールド名が maxKey 型に使用され、後で文字列などの別の型に変更される場合、OpenSearch は、最初の maxKey 以外の値について動的マッピングを作成します。後続の値は引き続き Amazon DocumentDB の maxKey 値にすることができます。	Amazon DocumentDB は maxKey 型のフィールドをサポートしています。

OpenSearch Ingestion パイプラインでデッドレターキュー (DLQ) を設定することをお勧めします。キューが設定済みである場合、OpenSearch Service は、動的マッピングの失敗により取り込めなかったすべての失敗したドキュメントをキューに送信します。

自動マッピングが失敗した場合は、パイプライン設定で template_type と template_content を使用して明示的なマッピングルールを定義できます。あるいは、パイプラインを開始する前に、検索ドメインまたはコレクションにマッピングテンプレートを直接作成することもできます。

制限事項

Amazon DocumentDB 用に OpenSearch Ingestion パイプラインを設定する際には、次の制限を考慮してください。

OpenSearch Ingestion と Amazon DocumentDB の統合は現在、クロスリージョンの取り込みをサポートしていません。Amazon DocumentDB クラスターと OpenSearch Ingestion パイプラインは、同じ AWS リージョンに存在する必要があります。
OpenSearch Ingestion と Amazon DocumentDB の統合は現在、クロスアカウントの取り込みをサポートしていません。Amazon DocumentDB クラスターと OpenSearch Ingestion パイプラインは、同じ AWS アカウントに存在する必要があります。
OpenSearch Ingestion パイプラインは、ソースとして 1 つの Amazon DocumentDB クラスターのみをサポートします。
OpenSearch Ingestion と Amazon DocumentDB の統合は、Amazon DocumentDB インスタンスベースのクラスターを特にサポートしています。Amazon DocumentDB エラスティッククラスターはサポートされていません。
OpenSearch Ingestion 統合は、Amazon DocumentDB クラスターの認証メカニズム AWS Secrets Manager としてのみをサポートします。
既存のパイプライン設定を更新して、別のデータベースまたはコレクションからデータを取り込むことはできません。代わりに、新しいパイプラインを作成する必要があります。

推奨される CloudWatch アラーム

最高のパフォーマンスを得るには、OpenSearch Ingestion パイプラインを作成して Amazon DocumentDB クラスターにソースとしてアクセスするときに、次の CloudWatch アラームを使用することをお勧めします。

CloudWatch アラーム	説明
`<pipeline-name>`.doucmentdb.credentialsChanged	このメトリクスは、 AWS シークレットがローテーションされる頻度を示します。
`<pipeline-name>`.doucmentdb.executorRefreshErrors	このメトリクスは、 AWS シークレットの更新に失敗したことを示します。
`<pipeline-name>`.doucmentdb.exportRecordsTotal	このメトリクスは、Amazon DocumentDB からエクスポートされたレコードの数を示します。
`<pipeline-name>`.doucmentdb.exportRecordsProcessed	このメトリクスは、OpenSearch Ingestion パイプラインによって処理されたレコードの数を示します。
`<pipeline-name>`.doucmentdb.exportRecordProcessingErrors	このメトリクスは、Amazon DocumentDB クラスターからデータを読み取る際の OpenSearch Ingestion パイプラインの処理エラーの数を示します。
`<pipeline-name>`.doucmentdb.exportRecordsSuccessTotal	このメトリクスは、正常に処理されたエクスポートレコードの合計数を示します。
`<pipeline-name>`.doucmentdb.exportRecordsFailedTotal	このメトリクスは、処理に失敗したエクスポートレコードの合計数を示します。
`<pipeline-name>`.doucmentdb.bytesReceived	このメトリクスは、OpenSearch Ingestion パイプラインによって受信された合計バイト数を示します。
`<pipeline-name>`.doucmentdb.bytesProcessed	このメトリクスは、OpenSearch Ingestion パイプラインによって処理されたバイトの合計数を示します。
`<pipeline-name>`.doucmentdb.exportPartitionQueryTotal	このメトリクスは、エクスポートパーティションの合計を示します。
`<pipeline-name>`.doucmentdb.streamRecordsSuccessTotal	このメトリクスは、ストリームから正常に処理されたレコードの数を示します。
`<pipeline-name>`.doucmentdb.streamRecordsFailedTotal	このメトリクスは、ストリームから処理に失敗したレコードの合計数を示します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon DynamoDB

Confluent Cloud Kafka