Amazon Personalize のトレーニングデータの準備 - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Personalize のトレーニングデータの準備

ドメインユースケースまたはレシピを選択し、そのデータ要件を書き留めたら、データの準備を開始します。Amazon Personalize では次のタイプのデータを使用できます。

  • アイテムインタラクション — Amazon Personalize では、アイテムインタラクションとは、ユーザーとカタログ内のアイテム間のポジティブなインタラクションイベントのことです。例えば、ユーザーが映画を見たり、リストを表示したり、靴を購入したりする場合です。

  • アイテム — アイテムメタデータには、カタログ内の各アイテムの料金、SKU タイプ、説明、可用性などの情報が含まれる場合があります。

  • ユーザー — ユーザーメタデータには、年齢、性別、ロイヤルティメンバーシップ、各ユーザーの関心などの情報が含まれる場合があります。

  • アクションアクションは、顧客に推奨できるエンゲージメントアクティビティです。アクションには、モバイルアプリのインストール、会員プロフィールの記入、ロイヤルティプログラムへの加入、プロモーションメールへの登録などがあります。Next-Best-Action レシピには、Actions データセットが必要です。Actions データを使用するカスタムレシピやドメインユースケースは他にありません。

  • アクションインタラクション — アクションインタラクションは、ユーザーとアクションの間のインタラクションイベントです。Next-Best-Action レシピは、このデータと Actions データセットのデータを使用して、ユーザーにアクションを推奨します。Action-interactions データを使用するカスタムレシピやドメインユースケースは他にありません。

Amazon Personalize は、データタイプごとに 1 つずつ、データセットにデータを保存します。データセットごとに要件は異なります。Amazon Personalize データセットにデータをインポートする場合、レコードを一括でインポートするか、個別にインポートするか、その両方を実行するかを選択できます。一括インポートには、Amazon S3 バケット内の 1 つ以上の CSV ファイルに保存されている多数の履歴レコードのインポートが含まれます。

以下のセクションでは、各 Amazon Personalize データセットタイプのデータ要件と、バルクデータを準備するためのガイドラインについて説明します。バルクデータがない場合は、セクションを確認して、個々のインポートオペレーションでインポートできる必須およびオプションのデータについて理解します。データのフォーマットに関する追加のヘルプが必要な場合は、Amazon SageMaker AI Data Wrangler (Data Wrangler) を使用してデータを準備することができます。詳細については、「Amazon SageMaker AI Data Wrangler を使用したバルクデータの準備とインポート」を参照してください。

データの準備が完了したら、スキーマ JSON ファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマ JSON ファイルの作成」を参照してください。

すべてのタイプのデータに関するバルクデータ形式のガイドライン

次のガイドラインと要件は、バルクデータが正しくフォーマットされていることを確認するのに役立ちます。

  • 入力データはコンマ区切り値 (CSV) としてフォーマットである必要があります。

  • CSV ファイルの最初の行には、列ヘッダーが含まれている必要があります。ヘッダーを引用符 (") で囲まないでください。

  • 列には一意の英数字名が必要です。例えば、GENRES_FIELD_1 フィールドと GENRESFIELD1 フィールドの両方を追加することはできません。

  • 複数の CSV ファイルを補完する場合、すべての列ヘッダーがすべてのファイルで一致する必要があります。

  • データセットタイプに必要なフィールドがあることを確認し、その名前が Amazon Personalize の要件と一致していることを確認してください。例えば、アイテムデータには、各アイテムの ID を持つ ITEM_IDENTIFICATION_NUMBER と呼ばれる列を含むことがあります。この列を ITEM_ID フィールドとして使用するには、列の名前を ITEM_ID に変更します。Data Wrangler を使用してデータをフォーマットする場合は、Amazon Personalize Data Wrangler のマップ列変換を使用して、列に正しい名前が付けられていることを確認できます。

    Data Wrangler を使用してデータを準備する方法については、「Amazon SageMaker AI Data Wrangler を使用したバルクデータの準備とインポート」を参照してください。

  • CSV ファイルの各レコードは 1 行にする必要があります。

  • Amazon Personalize は、配列やマップなどの複雑なデータタイプをサポートしません。

  • Amazon Personalize でトレーニングまたはフィルタリング時にブールデータを使用するには、文字列値 "True" および "False" を使用するか、true に 1 および false に 0 の数値を使用します。

  • Data Wrangler を使用してデータをフォーマットする場合、Data Wrangler 変換の Parse Value as Type を使用してデータ型を変換できます

  • TIMESTAMP および CREATION_TIMESTAMP データは UNIX エポック時間形式である必要があります。詳細については、「タイムスタンプのデータ」を参照してください。

  • アイテム ID、ユーザー ID、アクション ID データに " 文字や特殊文字を含めないでください。

  • データに ASCII でエンコードされていない文字が含まれている場合は、CSV ファイルを UTF-8 形式でエンコードする必要があります。

  • テキストデータは必ず、「非構造化テキストメタデータ」で説明されているとおりにフォーマットしてください。