翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker AI で適切なデータ準備ツールを選択するための推奨事項
<a name="data-prep"></a>

機械学習におけるデータ準備とは、分析とモデリングのために適切となるように raw データを収集、前処理、整理するプロセスを指します。このステップでは、データが機械学習アルゴリズムが効果的に学習できる形式であることを確認します。データ準備タスクには、欠損値の処理、外れ値の削除、特徴量のスケーリング、カテゴリ変数のエンコーディング、潜在的なバイアスの評価と軽減策の実行、データのトレーニングセットとテストセットへの分割、ラベル付け、今後の機械学習タスクに向けたデータの品質とユーザビリティを最適化するために必要な変換などがある可能性があります。

## 機能を選択する
<a name="data-prep-choose"></a>

Amazon SageMaker AI を使用した*データ準備*には、主に 3 つのユースケースがあります。要件に合った[ユースケース](#data-prep-choose-use-cases)を選択して、対応する[推奨機能](#data-prep-choose-recommended)を参照してください。

### ユースケース
<a name="data-prep-choose-use-cases"></a>

機械学習のためのデータ準備を実行する場合の主なユースケースは、以下のとおりです。
+ **ユースケース 1**: ビジュアルインターフェイスを使用するユーザー向けに、SageMaker AI はポイントアンドクリック環境でモデルトレーニングの機能を操作、準備、エンジニアリングする方法を提供しています。
+ **ユースケース 2**: コーディングに慣れていて、データ準備をより柔軟に制御することを望むユーザー向けに、SageMaker AI では操作、変換、特徴量エンジニアリング用のツールをコーディング環境に統合しています。
+ **ユースケース 3**: スケーラブルなデータ準備を重視するユーザー向けに、SageMaker AI はビッグデータの分散処理に Hadoop/Spark エコシステムを活用するサーバーレス機能を提供しています。

### 推奨機能
<a name="data-prep-choose-recommended"></a>

機械学習の各データ準備ユースケースに関連する SageMaker AI 機能の主な考慮事項とトレードオフの概要は、次の表のとおりです。使用を開始するには、要件に合ったユースケースを特定し、推奨される SageMaker 機能に移動します。


| Descriptor | ユースケース 1 | ユースケース 2 | ユースケース 3 | 
| --- | --- | --- | --- | 
| SageMaker AI の機能 | Amazon SageMaker Canvas 内の [Data Wrangler](canvas-data-prep.md) | [Studio で SQL を使用してデータを準備する](sagemaker-sql-extension.md) | Studio での [EMR Serverless を使用してデータを準備する](studio-notebooks-emr-serverless.md) アプリケーション | 
| 説明 | SageMaker Canvas は、SageMaker AI で機械学習モデルを構築、トレーニング、デプロイするための視覚的なローコード環境です。Data Wrangler ツールが統合されているため、ユーザーはポイントアンドクリック操作でデータセットを結合、変換、クリーンアップできます。 | Studio の SQL 拡張機能を使用すると、ユーザーは Amazon Redshift、Snowflake、Athena、Amazon S3 に接続してアドホック SQL クエリを作成し、JupyterLab ノートブックで結果をプレビューできます。このようなクエリの出力は、機械学習モデルの開発に使用できる形式への追加の処理、可視化、変換のために、Python や Pandas を使用して操作できます。 | EMR Serverless と Amazon SageMaker Studio の統合により、Apache Spark や Apache Hive などのオープンソースフレームワークを使用した機械学習用の大規模なデータ準備のためのスケーラブルなサーバーレス環境が提供されます。ユーザーは、Studio ノートブックから EMR Serverless アプリケーションとデータに直接アクセスして、大規模なデータ準備タスクを実行できます。 | 
| 最適化の対象 | 以下を実行できるビジュアルインターフェイスの使用: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/data-prep.html) 欠損値の処理、カテゴリ変数のエンコーディング、データ変換の適用など、表形式データのタスク向けに最適化されています。  | Amazon Redshift、Snowflake、Athena、または [Amazon S3](studio-sqlexplorer-athena-s3-quickstart.md) にデータがあり、Spark を学ぶ必要なく、探索的 SQL と Python を組み合わせてデータ分析と準備を行うことを求めるユーザー向けです。 | SageMaker AI の機械学習機能を活用しながら、Apache Spark を中心とする短期実行型または断続的なインタラクティブワークロードをスケールするために、自動リソースプロビジョニングと終了によるサーバーレスエクスペリエンスを求めるユーザー向けです。 | 
| 考慮事項 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/data-prep.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/data-prep.html)  | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/data-prep.html)  | 
| 推奨環境 | [SageMaker Canvas の使用を開始する](canvas-getting-started.md) | [Studio を起動する](studio-updated-launch.md#studio-updated-launch-prereq) | [Studio を起動する](studio-updated-launch.md#studio-updated-launch-prereq) | 

### 追加オプション
<a name="data-prep-choose-additional"></a>

 SageMaker AI は、機械学習モデルで使用するデータを準備するために、以下の追加オプションを提供しています。
+ [Amazon EMR を使用したデータ準備](studio-notebooks-emr-cluster.md): 長時間実行され、コンピューティング集約的で大規模なデータ処理タスクの場合は、SageMaker Studio の Amazon EMR クラスターの使用を検討してください。Amazon EMR クラスターは、大規模な並列処理を処理するように設計されており、数百または数千のノードにスケールできるため、Apache Spark、Hadoop、Hive、Presto などのフレームワークを必要とするビッグデータワークロードに適しています。Amazon EMR と SageMaker Studio の統合により、Amazon EMR のスケーラビリティとパフォーマンスを活用しながら、完全な ML 実験、モデルトレーニングとデプロイ、SageMaker Studio 環境内の一元化と管理を維持できます。
+ [Glue インタラクティブセッションを使用してデータを準備する](studio-notebooks-glue.md): AWS Glue インタラクティブセッションから Apache Spark ベースのサーバーレスエンジンを使用して、SageMaker Studio の複数のソースからデータを集約、変換、準備できます。
+ Amazon SageMaker Clarify 処理ジョブを使用して[トレーニングデータのバイアスを特定する](): SageMaker Clarify を使用すると、データを分析し、複数の側面にわたる潜在的なバイアスを検出できます。例えば、Studio の Clarify API を使用して、トレーニングデータに性別、人種、年齢などのグループ間の偏った表現やラベル付けバイアスがあるかを検出できます。Clarify は、モデルの予測へのバイアスの伝播を回避するために、モデルをトレーニングする前にこのようなバイアスを特定するのに役立ちます。
+ [特徴量の作成、保存、共有](): Amazon SageMaker 特徴量ストアは、機械学習用の厳選された特徴量の検出と再利用を最適化します。モデルトレーニング用に検索および取得できる特徴量データを保存する、一元化されたリポジトリを提供します。特徴量を標準化された形式で保存すると、ML プロジェクト間で再利用できます。特徴量ストアは、スケーラブルで管理された機械学習の特徴量エンジニアリングのためのリネージ追跡、統計、監査証跡など、特徴量ライフサイクル全体を管理します。
+ [データをヒューマンインザループでラベル付けする](data-label.md): SageMaker Ground Truth を使用すると、トレーニングデータセットのデータラベリングワークフローを管理できます。
+ [SageMaker Processing API を使用する](processing-job.md): 探索的データ分析を実行してデータ変換ステップを作成した後、[SageMaker AI Processing ジョブ](processing-job.md)を使用して変換コードを本番稼働し、[SageMaker Model Building Pipelines](pipelines.md) を使用して準備ワークフローを自動化できます。