ストリーミングデータのベクトル化ブループリントをデプロイする - Amazon Managed Streaming for Apache Kafka

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ストリーミングデータのベクトル化ブループリントをデプロイする

このトピックでは、ストリーミングデータベクトル化ブループリントをデプロイする方法について説明します。

ストリーミングデータのベクトル化ブループリントをデプロイする
  1. 次のリソースが正しく設定されていることを確認します。

    1. データを含む 1 つ以上のトピックを含むプロビジョニングされた MSK クラスターまたはサーバーレス MSK クラスター。

  2. Bedrock Setup: 目的の Bedrock モデルへのアクセス。現在サポートされている Bedrock モデルは次のとおりです。

    • Amazon Titan Embeddings G1 - Text

    • Amazon Titan Text Embeddings V2

    • Amazon Titan Multimodal Embeddings G1

    • Cohere Embed English

    • Cohere Embed Multilingual

  3. AWS OpenSearch コレクション:

    • プロビジョニングされた OpenSearch Service コレクションまたは Serverless OpenSearch Service コレクションを使用できます。

    • OpenSearch Service コレクションには、少なくとも 1 つのインデックスが必要です。

    • OpenSearch Serverless コレクションを使用する場合は、必ずベクトル検索コレクションを作成してください。ベクトルインデックスの設定方法の詳細については、「ナレッジベースの独自のベクトルストアの前提条件」を参照してください。ベクトル化の詳細については、Amazon OpenSearch Service のベクトルデータベース機能の説明を参照してください。

      注記

      ベクトルインデックスを作成するときは、ベクトルフィールド名 を使用する必要がありますembedded_data

    • OpenSearch Provisioned コレクションを使用する場合は、ブループリントによって作成された MSF アプリケーションロール (Opensearch アクセスポリシーを含む) を、マスターユーザーとして OpenSearch コレクションに追加する必要があります。また、OpenSearch のアクセスポリシーが「許可」アクションに設定されていることを確認します。これは、きめ細かなアクセスコントロールを有効にするために必要です。

    • オプションで、OpenSearch ダッシュボードへのアクセスを有効にして結果を表示できます。「きめ細かなアクセスコントロールを有効にする」を参照してください。

  4. aws:CreateStack アクセス許可を付与するロールを使用してログインします。

  5. MSF コンソールダッシュボードに移動し、ストリーミングアプリケーションの作成を選択します。

  6. 「メソッドを選択してストリーム処理アプリケーションを設定する」で「設計図を使用する」を選択します。

  7. ブループリントドロップダウンメニューからリアルタイム AI アプリケーションのブループリントを選択します。

  8. 必要な設定を指定します。「ページ設定を作成する」を参照してください。

  9. ブループリントのデプロイを選択して CloudFormation デプロイを開始します。

  10. CloudFormation のデプロイが完了したら、デプロイされた Flink アプリケーションに移動します。アプリケーションのランタイムプロパティを確認します。

  11. ランタイムプロパティをアプリケーションに変更/追加することを選択できます。これらのプロパティの設定の詳細については、「ランタイムプロパティの設定」を参照してください。

    注記

    メモ:

    OpenSearch プロビジョニングを使用している場合は、きめ細かなアクセスコントロールを有効にしていることを確認してください。

    プロビジョニングされたクラスターがプライベートの場合は、OpenSearch Provisioned VPC エンドポイント URL https://に を追加し、このエンドポイントを指すsink.os.endpointように を変更します。

    プロビジョニングされたクラスターがパブリックの場合は、MSF アプリケーションがインターネットにアクセスできることを確認します。詳細については、「>>>>>> express-brokers-publication-merge type="documentation" url="managed-flink/latest/java/vpc-internet.html" >VPC に接続された Managed Service for Apache Flink アプリケーションのインターネットおよびサービスアクセス」を参照してください。

  12. すべての設定に問題がなければ、 を選択しますRun。アプリケーションの実行が開始されます。

  13. MSK クラスターでメッセージをポンプします。

  14. Opensearch クラスターに移動し、OpenSearch ダッシュボードに移動します。

  15. ダッシュボードで、左側のメニューで検出を選択します。永続ドキュメントとそのベクトル埋め込みが表示されます。

  16. インデックスに保存されているベクトルの使用方法については、「ベクトル検索コレクションの使用」を参照してください。

ページ設定を作成する

このトピックでは、リアルタイム AI アプリケーションブループリントの設定を指定するときに参照するページ設定の作成について説明します。

アプリケーション名

MSF の既存のフィールドで、アプリケーションに任意の名前を付けます。

MSK クラスター

セットアップ中に作成した MSK クラスターをドロップダウンリストから選択します。

トピック

セットアップで作成したトピックの名前 (複数可) を追加します。

入力ストリームのデータ型

MSK ストリームに文字列入力を指定する場合は、文字列を選択します。

MSK ストリームの入力が JSON の場合は、JSON を選択します。埋め込み JSON キーで、埋め込みを生成するために Bedrock に送信する値を持つ入力 JSON のフィールドの名前を書き込みます。

Bedrock 埋め込みモデル

リストから 1 つ選択します。選択したモデルのモデルアクセス権があることを確認してください。アクセス権がないと、スタックが失敗する可能性があります。「Amazon Bedrock 基盤モデルへのアクセスの追加または削除」を参照してください。

OpenSearch クラスター

ドロップダウンから作成したクラスターを選択します。

OpenSearch ベクトルインデックス名

上記のステップで作成したベクトルインデックスを選択します。