で適切なデータ準備ツールを選択するための推奨事項 SageMaker - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

で適切なデータ準備ツールを選択するための推奨事項 SageMaker

機械学習におけるデータ準備とは、未加工のデータを収集、前処理、整理して分析とモデリングに適したプロセスを指します。このステップにより、データは機械学習アルゴリズムが効果的に学習できる形式になります。データ準備タスクには、欠損値の処理、外れ値の削除、機能のスケーリング、カテゴリ変数のエンコード、潜在的なバイアスの評価とそれを軽減するための手順の実行、トレーニングセットとテストセットへのデータの分割、ラベル付け、および後続の機械学習タスクのデータの品質と使いやすさを最適化するために必要な変換が含まれる場合があります。

機能を選択する

Amazon でのデータ準備には、主に 3 つのユースケースがあります SageMaker。要件に合ったユースケースを選択し、対応する推奨機能 を参照してください。

ユースケース

Machine Learning のデータ準備を実行する際の主なユースケースを次に示します。

  • ユースケース 1: ビジュアルインターフェイスを好むユーザーのために、 SageMaker は環境を通じて point-and-clickモデルトレーニングの機能を検討、準備、エンジニアリングする方法を提供します。

  • ユースケース 2: データ準備をより柔軟に制御したいコーディングに慣れているユーザーのために、 はツールをコーディング環境 SageMaker に統合し、探索、変換、機能エンジニアリングを行います。

  • ユースケース 3: スケーラブルなデータ準備に重点を置くユーザー向けに、 はビッグデータの分散処理に Hadoop/Spark エコシステムを活用するサーバーレス機能 SageMaker を提供します。

次の表は、機械学習の各データ準備ユースケースに関連する SageMaker 機能の主な考慮事項とトレードオフの概要を示しています。開始するには、要件に合ったユースケースを特定し、推奨 SageMaker機能に移動します。

ユースケース 1 ユースケース 2 ユースケース 3
SageMaker 機能 Amazon SageMaker Canvas 内の Data Wrangler Studio SQL で を使用してデータを準備する EMR Serverless を使用してデータを準備する Studio のアプリケーション
説明 SageMaker Canvas は、 で機械学習モデルを構築、トレーニング、デプロイするための視覚的なローコード環境です SageMaker。統合された Data Wrangler ツールを使用すると、ユーザーはインタラクションを通じて point-and-clickデータセットを結合、変換、クリーンアップできます。 Studio SQLの拡張機能を使用すると、ユーザーは Amazon Redshift、Snowflake、Athena、Amazon S3 に接続してアドホックSQLクエリを作成し、ノートブックで JupyterLab結果をプレビューできます。これらのクエリの出力は、 を使用して操作できます。Python また、Pandas は、機械学習モデルの開発に使用できる形式への追加の処理、視覚化、変換を行います。 EMR Serverless と Amazon SageMaker Studio の統合により、Apache Spark や Apache Hive などのオープンソースフレームワークを使用した機械学習のための大規模なデータ準備のためのスケーラブルなサーバーレス環境が提供されます。ユーザーは、Studio ノートブックからEMRサーバーレスアプリケーションとデータに直接アクセスして、データ準備タスクを大規模に実行できます。
最適化対象 次のことができるビジュアルインターフェイスの使用:

欠損値の処理、カテゴリ変数のエンコード、データ変換の適用など、表形式データタスク用に最適化されています。

Amazon Redshift、Snowflake、Athena、または Amazon S3的な SQLと を組み合わせたいユーザーの場合 Python 学習しなくてもデータ分析と準備が可能 Spark. SageMakerの機械学習機能を活用しながら、Apache Spark を中心とする短時間実行型または断続的なインタラクティブワークロードをスケーリングするために、自動リソースプロビジョニングと終了によるサーバーレスエクスペリエンスを希望するユーザー向け。
考慮事項
  • チームがすでに Python、Spark、またはその他の言語に関する専門知識を持っている場合、最適な選択ではない可能性があります。

  • 複雑なビジネスロジックを追加したり、データ処理環境を完全に制御したりするために、変換をカスタマイズするための完全な柔軟性が必要な場合は、最適ではない場合があります。

  • この機能は、Amazon Redshift、Snowflake、Athena、または Amazon S3 のみに存在する構造化データ用に設計されています。

  • クエリ結果のサイズが SageMaker インスタンスメモリを超える場合は、次のノートブックで Athena の使用を開始して、 SageMaker アルゴリズムによるデータの取り込みに備えることができます。

  • EMR Serverless アプリケーションや Spark ベースのツールに精通していないユーザーにとっての学習曲線は難しい場合があります。

  • この機能は、インタラクティブなデータ準備タスクに適しています。また、大量のデータ、他のサービスとの広範な統合、カスタムアプリケーション、または Apache Spark 以外の多様な分散データ処理フレームワークを含む、大規模、長時間実行、または複雑なデータ処理要件に対応する Amazon EMRクラスターほど効率的ではない場合があります。

  • サーバーレスコンピューティングは、短期間のタスクではコスト効率を高めることができますが、特に長時間稼働またはリソース集約型のワークロードでは、コストを慎重にモニタリングおよび管理することが重要です。

推奨環境 SageMaker Canvas の使用を開始する Studio を起動する Studio を起動する

追加のオプション

SageMaker では、機械学習モデルで使用するデータを準備するための以下の追加オプションが用意されています。

  • Amazon を使用したデータ準備 EMR: 長時間実行され、計算集約的で大規模なデータ処理タスクの場合は、 SageMaker Studio の Amazon EMRクラスターの使用を検討してください。Amazon EMRクラスターは、大規模な並列処理を処理するように設計されており、数百または数千のノードに拡張できるため、Apache Spark、Hadoop、Hive、Presto などのフレームワークを必要とするビッグデータワークロードに適しています。Amazon EMRと SageMaker Studio の統合により、Amazon のスケーラビリティとパフォーマンスを活用しEMRながら、完全な ML 実験、モデルトレーニングとデプロイ、 SageMaker Studio 環境内での一元化と管理を維持できます。

  • glue インタラクティブセッションを使用してデータを準備する: インタラクティブセッションから AWS Glue Apache Spark ベースのサーバーレスエンジンを使用して、 SageMaker Studio の複数のソースからデータを集約、変換、準備できます。

  • Amazon SageMaker Clarify 処理ジョブを使用してトレーニングデータのバイアスを特定する: SageMaker Clarify はデータを分析し、複数のファセットにわたる潜在的なバイアスを検出します。例えば、Studio APIで Clarify を使用して、トレーニングデータに性別、人種、年齢などのグループ間の不均衡な表現やラベル付けバイアスが含まれているかどうかを検出できます。Clarify は、モデルの予測にバイアスが伝播しないように、モデルをトレーニングする前にこれらのバイアスを特定するのに役立ちます。

  • 機能の作成、保存、共有: Amazon SageMaker Feature Store は、機械学習用に厳選された機能の検出と再利用を最適化します。これにより、モデルトレーニング用に検索および取得できる機能データを保存するための一元化されたリポジトリが提供されます。機能を標準化された形式で保存すると、ML プロジェクト間で再利用できます。Feature Store は、スケーラブルで管理された機械学習機能エンジニアリングの系統追跡、統計、監査証跡など、機能のライフサイクル全体を管理します。

  • でデータをラベル付け human-in-the-loopする: SageMaker Ground Truth を使用して、トレーニングデータセットのデータラベル付けワークフローを管理できます。

  • SageMaker 処理 を使用するAPI: 探索的なデータ分析を実行し、データ変換ステップを作成した後、SageMaker処理ジョブを使用して変換コードを本番化し、SageMaker モデル構築パイプライン を使用して準備ワークフローを自動化できます。