Amazon Personalize のトレーニングデータの準備 - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Personalize のトレーニングデータの準備

ドメインのユースケースまたはレシピを選択し、そのデータ要件を書き留めたら、データの準備を開始する準備が整います。Amazon Personalize では、次のタイプのデータを使用できます。

  • アイテムインタラクション – Amazon Personalize では、アイテムインタラクションは、ユーザーとカタログ内のアイテムの間のポジティブなインタラクションイベントです。例えば、映画を見ているユーザー、出品しているユーザー、靴を購入しているユーザーなどです。

  • アイテム – アイテムメタデータには、カタログ内の各アイテムの料金、SKUタイプ、説明、可用性などの情報が含まれる場合があります。

  • ユーザー – ユーザーメタデータには、年齢、性別、ロイヤルティメンバーシップ、各ユーザーの関心などの情報が含まれる場合があります。

  • アクションアクションは、顧客に推奨するエンゲージメントアクティビティです。アクションには、モバイルアプリのインストール、会員プロフィールの記入、ロイヤルティプログラムへの加入、プロモーションメールへの登録などがあります。Next-Best-Action レシピには、Actions データセットが必要です。Actions データを使用するカスタムレシピやドメインユースケースは他にありません。

  • アクションインタラクション – アクションインタラクションは、ユーザーとアクションの間のインタラクションイベントです。Next-Best-Action レシピは、このデータと Actions データセットのデータを使用して、ユーザーにアクションを推奨します。他のカスタムレシピやドメインユースケースでは、アクションインタラクションデータを使用しません。

Amazon Personalize は、データタイプごとに 1 つずつ、データセットにデータを保存します。データセットごとに要件が異なります。Amazon Personalize データセットにデータをインポートする場合、レコードを一括でインポートするか、個別にインポートするか、またはその両方でインポートするかを選択できます。一括インポートには、Amazon S3 バケット内の 1 つ以上のCSVファイルに保存された多数の履歴レコードのインポートが含まれます。

以下のセクションでは、Amazon Personalize の各データセットタイプのデータ要件と、バルクデータを準備するためのガイドラインについて説明します。バルクデータがない場合は、セクションを確認して、個々のインポートオペレーションでインポートできる必須およびオプションのデータを理解してください。データのフォーマットに関するその他のヘルプが必要な場合は、Amazon SageMaker Data Wrangler (Data Wrangler) を使用してデータを準備することができます。詳細については、「Amazon SageMaker Data Wrangler を使用したバルクデータの準備とインポート」を参照してください。

データの準備が完了したら、スキーマJSONファイルを作成する準備が整います。このファイルは、データの構造を Amazon Personalize に伝えます。詳細については、「Amazon Personalize スキーマのスキーマJSONファイルの作成」を参照してください。

すべてのタイプのデータに対する一括データ形式のガイドライン

次のガイドラインと要件は、バルクデータが正しくフォーマットされていることを確認するのに役立ちます。

  • 入力データは CSV (カンマ区切り値) ファイルにある必要があります。

  • CSV ファイルの最初の行には列ヘッダーが含まれている必要があります。ヘッダーを引用符 (") で囲まないでください。

  • 列には一意の英数字名が必要です。例えば、GENRES_FIELD_1 フィールドと GENRESFIELD1 フィールドの両方を追加することはできません。

  • データセットタイプに必要なフィールドがあることを確認し、その名前が Amazon Personalize の要件と一致していることを確認してください。例えば、アイテムデータには、アイテムIDsごとに ITEM_IDENTIFICATION_NUMBERという列がある場合があります。この列を ITEM_ID フィールドとして使用するには、列の名前を に変更しますITEM_ID。Data Wrangler を使用してデータをフォーマットする場合は、Amazon Personalize Data Wrangler のマップ列変換を使用して、列に正しい名前が付けられていることを確認できます。

    Data Wrangler を使用してデータを準備する方法については、「Amazon SageMaker Data Wrangler を使用したバルクデータの準備とインポート」を参照してください。

  • CSV ファイル内の各レコードは 1 行にする必要があります。

  • Amazon Personalize は、配列やマップなどの複雑なデータ型をサポートしていません。

  • Amazon Personalize がトレーニングまたはフィルタリング時にブールデータを使用するには、true "True"には文字列値、0false 1には "False"または 数値を使用します。

  • Data Wrangler を使用してデータをフォーマットする場合、Data Wrangler 変換の Parse Value as Type を使用してデータ型を変換できます

  • TIMESTAMP および CREATION_TIMESTAMPデータはエポック時間形式である必要があります。 UNIX 詳細については、「タイムスタンプのデータ」を参照してください。

  • アイテム ID、ユーザー ID、アクション ID データに文字"や特殊文字を含めないでください。

  • データにエンASCIIコードされていない文字が含まれている場合は、CSVファイルを UTF-8 形式でエンコードする必要があります。

  • テキストデータは必ず、「非構造化テキストメタデータ」で説明されているとおりにフォーマットしてください。