データセットインポートジョブを使用してバルクデータを Amazon Personalize にインポートする - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットインポートジョブを使用してバルクデータを Amazon Personalize にインポートする

入力データをフォーマットし (「Amazon Personalize のトレーニングデータの準備」を参照)、「スキーマとデータセットの作成」を完了したら、データセットインポートジョブを使用してバルクデータをインポートする準備が整います。データセットインポートジョブは、Amazon S3 からのデータをデータセットに取り込む一括インポートツールです。

Amazon S3 からデータをインポートするには、CSVファイルが Amazon S3 バケットにあり、Amazon Personalize に Amazon S3 リソースへのアクセス許可を付与する必要があります。

データセットのインポートジョブは、Amazon Personalize コンソール、 (AWS CLI)、 AWS Command Line Interface または を使用して作成できます AWS SDKs。以前にデータセットのデータセットインポートジョブを作成したことがある場合は、新しいデータセットインポートジョブを使用して、既存のバルクデータを追加または置き換えることができます。詳細については、「トレーニング後のデータセット内のデータの更新」を参照してください。

既にデータセットにあるレコードと同じ ID の項目、ユーザー、またはアクションをインポートすると、Amazon Personalize はそれを新しいレコードに置き換えます。2 つのアイテムインタラクションイベントまたはアクションインタラクションイベントを、まったく同じタイムスタンプと同じプロパティで記録すると、Amazon Personalize はいずれかのイベントのみを保持します。

データをインポートしたら、ドメインレコメンダー (ドメインデータセットグループ用) またはカスタムリソース (カスタムデータセットグループ用) を作成して、データに基づいてモデルをトレーニングする準備が整います。これらのリソースを使用して、レコメンデーションを生成します。詳細については、Amazon Personalize のドメインレコメンダー または Amazon Personalize モデルのトレーニングとデプロイのためのカスタムリソース を参照してください。

インポートモード

データセットのインポートジョブを既に作成している場合は、Amazon Personalize が新しいレコードを追加する方法を設定できます。これを行うには、データセットのインポートジョブのインポートモードを指定します。一括レコードをインポートしていない場合、インポートモードフィールドはコンソールで使用できず、 CreateDatasetImportJobAPIオペレーションFULLでのみ指定できます。デフォルトは完全な置き換えモードです。

  • データセット内のすべての既存のバルクデータを上書きするには、Amazon Personalize コンソールで既存のデータを置き換えるか、 CreateDatasetImportJobAPIオペレーションFULLで を指定します。これにより、リアルタイムで記録されたイベントを含め、個別にインポートしたデータが置き換えられることはありません。

  • データセット内の既存のデータにレコードを追加するには、既存のデータに追加を選択するか、 CreateDatasetImportJobAPIオペレーションINCREMENTALで を指定します。Amazon Personalize は、同じ ID のレコードをすべて新しいレコードに置き換えます。

    注記

    データセットのインポートジョブでアイテムインタラクションデータセットまたはアクションインタラクションデータセットにデータを追加するには、少なくとも 1,000 件の新しいインタラクションレコードまたはアクションインタラクションレコードが必要です。

データセットのインポートジョブの作成 (コンソール)

重要

デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモードを変更してデータを追加できます。

Amazon Personalize コンソールを使用してデータセットに一括レコードをインポートするには、名前、IAMサービスロール、データの場所を使用してデータセットのインポートジョブを作成します。

スキーマとデータセットの作成 でデータセットを作成したばかりの場合は、ステップ 5 に進んでください。

バルクレコードをインポートするには (コンソール)
  1. https://console.aws.amazon.com/personalize/自宅の Amazon Personalize コンソールを開き、アカウントにサインインします。

  2. [データセットグループ] のページで、データセットグループを選択します。データセットグループの 概要 が表示されます。

  3. ナビゲーションペインで、[データセット] を選択し、バルクデータのインポート先となるデータセットを選択します。

  4. [データセットインポートジョブ][データセットインポートジョブの作成] を選択します。

  5. これが最初のデータセットインポートジョブの場合、[データインポートソース][S3 からデータをインポート] を選択します。

  6. [データセットのインポートジョブ名] で、インポートジョブの名前を指定します。

  7. バルクデータをインポート済みの場合は、[インポートモード] でデータセットを更新する方法を選択します。[既存のデータを置換] または [既存のデータに追加] を選択します。このオプションは、データセットの最初のジョブである場合は表示されません。詳細については、「トレーニング後のデータセット内のデータの更新」を参照してください。

  8. [データインポートソース][データの場所] で Amazon S3 のどこにデータファイルを保存するかを指定します。次の構文を使用します。

    s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

    CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に / を付けて次の構文を使用します。

    s3:/amzn-s3-demo-bucket/<folder path>/

  9. IAM ロールで、新しいロールを作成するか、既存のロールを使用するかを選択します。前提条件を満たしたら、[既存のサービスロールを使用する] を選択し、Amazon Personalize の IAMロールの作成 で作成したロールを指定します。

  10. メトリクス属性を作成し、このジョブに関連するメトリクスをAmazon S3 に公開する場合は、[イベントメトリクスを S3 に公開][このインポートジョブのメトリクスを公開] を選択します。

    メトリクスがまだ作成されておらず、このジョブのメトリクスを公開したい場合は、[メトリクス属性の作成] を選択して別のタブに新しいメトリクスを作成します。メトリクス属性を作成したら、この画面に戻ってインポートジョブの作成を完了できます。

    メトリクス属性の詳細については、「Amazon Personalize レコメンデーションの影響の測定」を参照してください。

  11. [タグ] には、オプションで任意のタグを追加します。Amazon Personalize リソースのタグ付けについての詳細は、「Amazon Personalize リソースのタグ付け」を参照してください。

  12. [Start import (インポートの開始)] を選択します。データインポートジョブが開始され、[Dashboard Overview (ダッシュボード概要)] ページが表示されます。ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析Amazon S3 バケットへのエクスポート更新、またはデータセットの削除による削除を行うことができます。

    データをインポートしたら、ドメインレコメンダー (ドメインデータセットグループ用) またはカスタムリソース (カスタムデータセットグループ用) を作成して、データに基づいてモデルをトレーニングする準備が整います。これらのリソースを使用して、レコメンデーションを生成します。詳細については、Amazon Personalize のドメインレコメンダー または Amazon Personalize モデルのトレーニングとデプロイのためのカスタムリソース を参照してください。

データセットインポートジョブを作成する (AWS CLI)

重要

デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモードを変更してデータを追加できます。

を使用してバルクレコードをインポートするには AWS CLI、 CreateDatasetImportJob コマンドを使用してデータセットのインポートジョブを作成します。以前にデータセットのデータセットインポートジョブを作成したことがある場合は、インポートモードパラメーターを使用して新しいデータの追加方法を指定できます。既存のバルクデータの更新の詳細については、「トレーニング後のデータセット内のデータの更新」を参照してください。

バルクレコードをインポートする (AWS CLI)
  1. 次のコマンドを実行してデータセットのインポートジョブを作成します。データセットの Amazon リソースネーム (ARN) を指定し、トレーニングデータを保存した Amazon S3 バケットへのパスを指定します。パスには次の構文を使用します。

    s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>

    CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に / を付けて次の構文を使用します。

    s3:/amzn-s3-demo-bucket/<folder path>/

    で作成した AWS Identity and Access Management (IAM) ロールの Amazon リソースネーム (ARN) を指定しますAmazon Personalize の IAMロールの作成import-mode のデフォルト値は FULL です。詳細については、「トレーニング後のデータセット内のデータの更新」を参照してください。オペレーションの詳細については、「CreateDatasetImportJob」を参照してください。

    aws personalize create-dataset-import-job \ --job-name dataset import job name \ --dataset-arn dataset arn \ --data-source dataLocation=s3://amzn-s3-demo-bucket/filename \ --role-arn roleArn \ --import-mode FULL

    次の例に示すように、データセットのインポートジョブARNが表示されます。

    { "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobName" }
  2. describe-dataset-import-job コマンドを使用してステータスを確認します。前のステップで返ARNされたデータセットのインポートジョブを指定します。オペレーションの詳細については、「DescribeDatasetImportJob」を参照してください。

    aws personalize describe-dataset-import-job \ --dataset-import-job-arn dataset import job arn

    データセットのインポートジョブのプロパティとそのステータスが表示されます。最初は、 は CREATE とstatus表示されますPENDING。

    { "datasetImportJob": { "jobName": "Dataset Import job name", "datasetImportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-import-job/DatasetImportJobArn", "datasetArn": "arn:aws:personalize:us-west-2:acct-id:dataset/DatasetGroupName/INTERACTIONS", "dataSource": { "dataLocation": "s3://amzn-s3-demo-bucket/ratings.csv" }, "importMode": "FULL", "roleArn": "role-arn", "status": "CREATE PENDING", "creationDateTime": 1542392161.837, "lastUpdatedDateTime": 1542393013.377 } }

    ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析Amazon S3 バケットへのエクスポート更新、またはデータセットの削除による削除を行うことができます。

    データをインポートしたら、ドメインレコメンダー (ドメインデータセットグループ用) またはカスタムリソース (カスタムデータセットグループ用) を作成して、データに基づいてモデルをトレーニングする準備が整います。これらのリソースを使用して、レコメンデーションを生成します。詳細については、Amazon Personalize のドメインレコメンダー または Amazon Personalize モデルのトレーニングとデプロイのためのカスタムリソース を参照してください。

データセットインポートジョブを作成する (AWS SDKs)

重要

デフォルトでは、データセットのインポートジョブは、一括でインポートしたデータセット内の既存のデータを置き換えます。バルクデータを既にインポートしている場合は、ジョブのインポートモードを変更してデータを追加できます。

データをインポートするには、CreateDatasetImportJob オペレーションを使用してデータセットのインポートジョブを作成します。次のコードは、データセットのインポートジョブを作成する方法を示しています。

ジョブ名を指定し、データセットの datasetArn Amazon リソースネーム (ARN) を設定し、 dataLocationをトレーニングデータを保存した Amazon S3 バケットへのパスに設定します。パスには次の構文を使用します。

s3:/amzn-s3-demo-bucket/<folder path>/<CSV filename>.csv

CSV ファイルが Amazon S3 バケット内のフォルダにあり、1 つのデータセットインポートジョブで複数のCSVファイルをデータセットにアップロードする場合は、フォルダへのパスを指定できます。Amazon Personalize はフォルダの最初のレベルにあるファイルのみを使用し、サブフォルダのデータは一切使用しません。フォルダ名の後に / を付けて次の構文を使用します。

s3:/amzn-s3-demo-bucket/<folder path>/

にはroleArn、S3 バケットへのアクセス許可を Amazon Personalize に付与する AWS Identity and Access Management (IAM) ロールを指定します。「Amazon Personalize の IAMロールの作成」を参照してください。importMode のデフォルト値は FULL です。これにより、データセット内のすべてのバルクデータが置き換えられます。データを追加するには、INCREMENTAL に設定します。既存のバルクデータの更新の詳細については、「トレーニング後のデータセット内のデータの更新」を参照してください。

SDK for Python (Boto3)
import boto3 personalize = boto3.client('personalize') response = personalize.create_dataset_import_job( jobName = 'YourImportJob', datasetArn = 'dataset_arn', dataSource = {'dataLocation':'s3://amzn-s3-demo-bucket/filename.csv'}, roleArn = 'role_arn', importMode = 'FULL' ) dsij_arn = response['datasetImportJobArn'] print ('Dataset Import Job arn: ' + dsij_arn) description = personalize.describe_dataset_import_job( datasetImportJobArn = dsij_arn)['datasetImportJob'] print('Name: ' + description['jobName']) print('ARN: ' + description['datasetImportJobArn']) print('Status: ' + description['status'])
SDK for Java 2.x
public static String createPersonalizeDatasetImportJob(PersonalizeClient personalizeClient, String jobName, String datasetArn, String s3BucketPath, String roleArn, ImportMode importMode) { long waitInMilliseconds = 60 * 1000; String status; String datasetImportJobArn; try { DataSource importDataSource = DataSource.builder() .dataLocation(s3BucketPath) .build(); CreateDatasetImportJobRequest createDatasetImportJobRequest = CreateDatasetImportJobRequest.builder() .datasetArn(datasetArn) .dataSource(importDataSource) .jobName(jobName) .roleArn(roleArn) .importMode(importMode) .build(); datasetImportJobArn = personalizeClient.createDatasetImportJob(createDatasetImportJobRequest) .datasetImportJobArn(); DescribeDatasetImportJobRequest describeDatasetImportJobRequest = DescribeDatasetImportJobRequest.builder() .datasetImportJobArn(datasetImportJobArn) .build(); long maxTime = Instant.now().getEpochSecond() + 3 * 60 * 60; while (Instant.now().getEpochSecond() < maxTime) { DatasetImportJob datasetImportJob = personalizeClient .describeDatasetImportJob(describeDatasetImportJobRequest) .datasetImportJob(); status = datasetImportJob.status(); System.out.println("Dataset import job status: " + status); if (status.equals("ACTIVE") || status.equals("CREATE FAILED")) { break; } try { Thread.sleep(waitInMilliseconds); } catch (InterruptedException e) { System.out.println(e.getMessage()); } } return datasetImportJobArn; } catch (PersonalizeException e) { System.out.println(e.awsErrorDetails().errorMessage()); } return ""; }
SDK for JavaScript v3
// Get service clients and commands using ES6 syntax. import { CreateDatasetImportJobCommand, PersonalizeClient } from "@aws-sdk/client-personalize"; // create personalizeClient const personalizeClient = new PersonalizeClient({ region: "REGION" }); // Set the dataset import job parameters. export const datasetImportJobParam = { datasetArn: 'DATASET_ARN', /* required */ dataSource: { dataLocation: 's3://amzn-s3-demo-bucket/<folderName>/<CSVfilename>.csv' /* required */ }, jobName: 'NAME', /* required */ roleArn: 'ROLE_ARN', /* required */ importMode: "FULL" /* optional, default is FULL */ }; export const run = async () => { try { const response = await personalizeClient.send(new CreateDatasetImportJobCommand(datasetImportJobParam)); console.log("Success", response); return response; // For unit tests. } catch (err) { console.log("Error", err); } }; run();

DescribeDatasetImportJob 操作のレスポンスには、操作のステータスが含まれます。

データを使用してモデルをトレーニングACTIVEするには、ステータスが に変わるまで待つ必要があります。

ステータスが と表示されると、データセットのインポートは完了ですACTIVE。Amazon Personalize データセットにデータをインポートしたら、分析Amazon S3 バケットへのエクスポート更新、またはデータセットの削除による削除を行うことができます。

データをインポートしたら、ドメインレコメンダー (ドメインデータセットグループ用) またはカスタムリソース (カスタムデータセットグループ用) を作成して、データに基づいてモデルをトレーニングする準備が整います。これらのリソースを使用して、レコメンデーションを生成します。詳細については、Amazon Personalize のドメインレコメンダー または Amazon Personalize モデルのトレーニングとデプロイのためのカスタムリソース を参照してください。