Amazon Titan Text Embeddings モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Text Embeddings モデル

Amazon Titan Embeddings モデルには、Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings G1 モデルが含まれます。

テキスト埋め込みは、ドキュメント、段落、文などの非構造化テキストの意味があるベクトル表現を表します。テキストの本文を入力すると、出力は (1 x n) のベクトルになります。埋め込みベクトルは、さまざまなアプリケーションで使用できます。

Amazon Titan Text Embedding v2 モデル (amazon.titan-embed-text-v2:0) では、最大 8,192 のトークンを取り込むことができ、1,024 次元のベクトルを出力します。このモデルはテキスト取得タスク用に最適化されていますが、セマンティック類似性やクラスタリングなどの追加のタスクにも最適化できます。

Amazon Titan Embeddings モデルは、ドキュメント、段落、文の意味に沿ったセマンティック表現を生成します。Amazon Titan Text Embeddings はテキスト本文を入力として受け取り、(1 x n) ベクトルを生成します。Amazon Titan Text Embeddings は、より高速な検索 (取得ステップで推奨) のためにレイテンシーを最適化したエンドポイント呼び出しと、より高速なインデックス作成のためにスループットを最適化したバッチジョブによって提供されます。Amazon Titan Text Embeddings v2 は長いドキュメントをサポートしていますが、取得タスクでは、ドキュメントを段落やセクションなどの論理セグメントにセグメント化することをお勧めします。

注記

Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings v1 モデルは、 maxTokenCountや などの推論パラメータをサポートしていませんtopP

Amazon Titan Text Embeddings V2 モデル

  • モデル IDamazon.titan-embed-text-v2:0

  • 入力テキストトークンの最大数 – 8,192

  • 言語 – 英語 (プレビューで 100 以上の言語)

  • 出力ベクトルサイズ – 1,024 (デフォルト)、512、256

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – RAG、ドキュメント検索、再ランキング、分類など。

注記

Titan Text Embeddings V2 は、最大 8,192 トークンを持つ空でない文字列を入力とします。英語の文字とトークンの比率は、トークンあたり平均 4.7 文字です。Titan Text Embeddings V1 と Titan Text Embeddings V2 は最大 8,192 個のトークンまで対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

Amazon Titan Embedding Text v2 モデルは、次の言語をサポートしています。

  • アフリカーンス語

  • アルバニア語

  • アムハラ語

  • アラビア語

  • アルメニア語

  • アッサム語

  • アゼルバイジャン語

  • バシキール語

  • バスク語

  • ベラルーシ語

  • ベンガル語

  • ボスニア語

  • ブルトン

  • ブルガリア語

  • ビルマ語

  • カタロニア語

  • セブアノ語

  • 中国語

  • コシカン語

  • クロアチア語

  • チェコ語

  • デンマーク語

  • ディベヒ

  • オランダ語

  • 英語

  • エスペラント語

  • エストニア語

  • フェロー語

  • フィンランド語

  • フランス語

  • ガリシア語

  • グルジア語

  • ドイツ語

  • グジャラート語

  • ハイチ語

  • ハウサ語

  • ヘブライ語

  • ヒンディー語

  • ハンガリー語

  • アイスランド語

  • インドネシア語

  • アイルランド語

  • イタリア語

  • 日本語

  • ジャワ語

  • カンナダ語

  • カザフ語

  • クメール語

  • キニヤルワンダ語

  • キルギス語

  • 韓国語

  • クルド語

  • ラオス語

  • ラテン語

  • ラトビア語

  • リトアニア語

  • ルクセンブルク語

  • マケドニア語

  • マダガスカル語

  • マレー語

  • マラヤーラム語

  • マルタ語

  • マオリ語

  • マラーティー語

  • 現代ギリシャ語

  • モンゴル語

  • ネパール語

  • ノルウェー語

  • ノルウェー語ナニノルスク

  • オクティタン

  • オリヤー語

  • パンジャビ

  • ペルシャ語

  • ポーランド語

  • ポルトガル語

  • プシュトン語

  • ルーマニア語

  • ロマン語

  • ロシア語

  • サンスクリット語

  • スコティッシュゲール語

  • セルビア語

  • シンディー

  • シンハラ語

  • スロバキア語

  • スロベニア語

  • ソマリ語

  • スペイン語

  • スンダ語

  • スワヒリ語

  • スウェーデン語

  • タガログ語

  • タジク語

  • タミル語

  • タタール語

  • テルグ語

  • タイ語

  • チベタン語

  • トルコ語

  • トルクメン語

  • ウイグル語

  • ウクライナ語

  • ウルドゥー語

  • ウズベク語

  • ベトナム語

  • ウェイ

  • ウェールズ語

  • 西フリシア語

  • Xhosa

  • イディッシュ語

  • ヨルバ語

  • ズールー語