SageMaker AI で適切なデータ準備ツールを選択するための推奨事項

機械学習におけるデータ準備とは、分析とモデリングのために適切となるように raw データを収集、前処理、整理するプロセスを指します。このステップでは、データが機械学習アルゴリズムが効果的に学習できる形式であることを確認します。データ準備タスクには、欠損値の処理、外れ値の削除、特徴量のスケーリング、カテゴリ変数のエンコーディング、潜在的なバイアスの評価と軽減策の実行、データのトレーニングセットとテストセットへの分割、ラベル付け、今後の機械学習タスクに向けたデータの品質とユーザビリティを最適化するために必要な変換などがある可能性があります。

機能を選択する

Amazon SageMaker AI を使用したデータ準備には、主に 3 つのユースケースがあります。要件に合ったユースケースを選択して、対応する推奨機能を参照してください。

ユースケース

機械学習のためのデータ準備を実行する場合の主なユースケースは、以下のとおりです。

ユースケース 1: ビジュアルインターフェイスを使用するユーザー向けに、SageMaker AI はポイントアンドクリック環境でモデルトレーニングの機能を操作、準備、エンジニアリングする方法を提供しています。
ユースケース 2: コーディングに慣れていて、データ準備をより柔軟に制御することを望むユーザー向けに、SageMaker AI では操作、変換、特徴量エンジニアリング用のツールをコーディング環境に統合しています。
ユースケース 3: スケーラブルなデータ準備を重視するユーザー向けに、SageMaker AI はビッグデータの分散処理に Hadoop/Spark エコシステムを活用するサーバーレス機能を提供しています。

推奨機能

機械学習の各データ準備ユースケースに関連する SageMaker AI 機能の主な考慮事項とトレードオフの概要は、次の表のとおりです。使用を開始するには、要件に合ったユースケースを特定し、推奨される SageMaker 機能に移動します。

Descriptor	ユースケース 1	ユースケース 2	ユースケース 3
SageMaker AI の機能	Amazon SageMaker Canvas 内の Data Wrangler	Studio で SQL を使用してデータを準備する	Studio での EMR Serverless を使用してデータを準備するアプリケーション
説明	SageMaker Canvas は、SageMaker AI で機械学習モデルを構築、トレーニング、デプロイするための視覚的なローコード環境です。Data Wrangler ツールが統合されているため、ユーザーはポイントアンドクリック操作でデータセットを結合、変換、クリーンアップできます。	Studio の SQL 拡張機能を使用すると、ユーザーは Amazon Redshift、Snowflake、Athena、Amazon S3 に接続してアドホック SQL クエリを作成し、JupyterLab ノートブックで結果をプレビューできます。このようなクエリの出力は、機械学習モデルの開発に使用できる形式への追加の処理、可視化、変換のために、Python や Pandas を使用して操作できます。	EMR Serverless と Amazon SageMaker Studio の統合により、Apache Spark や Apache Hive などのオープンソースフレームワークを使用した機械学習用の大規模なデータ準備のためのスケーラブルなサーバーレス環境が提供されます。ユーザーは、Studio ノートブックから EMR Serverless アプリケーションとデータに直接アクセスして、大規模なデータ準備タスクを実行できます。
最適化の対象	以下を実行できるビジュアルインターフェイスの使用: データ準備パイプラインを作成するデータ分析の実行組み込み変換を使用したデータの変換データ変換に生成 AI を活用した自然言語の手順を使用する欠損値の処理、カテゴリ変数のエンコーディング、データ変換の適用など、表形式データのタスク向けに最適化されています。	Amazon Redshift、Snowflake、Athena、または Amazon S3 にデータがあり、Spark を学ぶ必要なく、探索的 SQL と Python を組み合わせてデータ分析と準備を行うことを求めるユーザー向けです。	SageMaker AI の機械学習機能を活用しながら、Apache Spark を中心とする短期実行型または断続的なインタラクティブワークロードをスケールするために、自動リソースプロビジョニングと終了によるサーバーレスエクスペリエンスを求めるユーザー向けです。
考慮事項	Python、Spark、またはその他の言語に関する専門知識を既にチームが身に着けている場合、これは最適な選択ではない可能性があります。複雑なビジネスロジックを追加する完全な柔軟性が必要な場合や、データ処理環境のフルコントロールが必要な場合には、最適ではない場合があります。	この機能は、Amazon Redshift、Snowflake、Athena、または Amazon S3 のみに存在する構造化データ用に設計されています。クエリ結果のサイズが SageMaker AI インスタンスメモリを超える場合、次のノートブックは、SageMaker AI アルゴリズムによる取り込み用にデータを準備するために Athena の使用開始ガイドを提供しています。	EMR Serverless アプリケーションや Spark ベースのツールに精通していないユーザーにとっては、学ぶのが困難となる可能性があります。この機能は、インタラクティブなデータ準備タスクに適しています。大量のデータ、他のサービスとの広範な統合、カスタムアプリケーション、Apache Spark 以外の多様な分散データ処理フレームワークを使用した、大規模実行、長時間実行、または複雑なデータ処理要件に対応する Amazon EMR クラスターと比べて効率的ではない場合があります。サーバーレスコンピューティングは、短期間のタスクではコスト効率に優れているとはいえ、特に長時間稼働またはリソース集約型のワークロードでは、コストを慎重にモニタリングして管理することが重要です。
推奨環境	SageMaker Canvas の使用を開始する	Studio を起動する	Studio を起動する

追加オプション

SageMaker AI は、機械学習モデルで使用するデータを準備するために、以下の追加オプションを提供しています。

Amazon EMR を使用したデータ準備: 長時間実行され、コンピューティング集約的で大規模なデータ処理タスクの場合は、SageMaker Studio の Amazon EMR クラスターの使用を検討してください。Amazon EMR クラスターは、大規模な並列処理を処理するように設計されており、数百または数千のノードにスケールできるため、Apache Spark、Hadoop、Hive、Presto などのフレームワークを必要とするビッグデータワークロードに適しています。Amazon EMR と SageMaker Studio の統合により、Amazon EMR のスケーラビリティとパフォーマンスを活用しながら、完全な ML 実験、モデルトレーニングとデプロイ、SageMaker Studio 環境内の一元化と管理を維持できます。
Glue インタラクティブセッションを使用してデータを準備する: AWS Glue インタラクティブセッションから Apache Spark ベースのサーバーレスエンジンを使用して、SageMaker Studio の複数のソースからデータを集約、変換、準備できます。
Amazon SageMaker Clarify 処理ジョブを使用してトレーニングデータのバイアスを特定する: SageMaker Clarify を使用すると、データを分析し、複数の側面にわたる潜在的なバイアスを検出できます。例えば、Studio の Clarify API を使用して、トレーニングデータに性別、人種、年齢などのグループ間の偏った表現やラベル付けバイアスがあるかを検出できます。Clarify は、モデルの予測へのバイアスの伝播を回避するために、モデルをトレーニングする前にこのようなバイアスを特定するのに役立ちます。
特徴量の作成、保存、共有: Amazon SageMaker 特徴量ストアは、機械学習用の厳選された特徴量の検出と再利用を最適化します。モデルトレーニング用に検索および取得できる特徴量データを保存する、一元化されたリポジトリを提供します。特徴量を標準化された形式で保存すると、ML プロジェクト間で再利用できます。特徴量ストアは、スケーラブルで管理された機械学習の特徴量エンジニアリングのためのリネージ追跡、統計、監査証跡など、特徴量ライフサイクル全体を管理します。
データをヒューマンインザループでラベル付けする: SageMaker Ground Truth を使用すると、トレーニングデータセットのデータラベリングワークフローを管理できます。
SageMaker Processing API を使用する: 探索的データ分析を実行してデータ変換ステップを作成した後、SageMaker AI Processing ジョブを使用して変換コードを本番稼働し、SageMaker Model Building Pipelines を使用して準備ワークフローを自動化できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

API リファレンス

Studio で SQL を使用してデータを準備する