コンテンツ分野 1: 機械学習 (ML) のためのデータ準備

タスク 1.1: データを取り込んで保存する。

対象知識:

データフォーマットと取り込みメカニズム (検証済みフォーマットと未検証フォーマット、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO など)
AWS の主要なデータソース (Amazon S3、Amazon EFS、Amazon FSx for NetApp ONTAP など) の使用方法
AWS のストリーミングデータソース (Amazon Kinesis、Apache Flink、Apache Kafka など) を使用してデータを取り込む方法
AWS のストレージオプション (ユースケースとトレードオフなど)

対象スキル:

関連する AWS のサービスオプション (Amazon S3 Transfer Acceleration、Amazon EBS プロビジョンド IOPS など) を使用してストレージ (Amazon S3、Amazon EBS、Amazon EFS、Amazon RDS、Amazon DynamoDB など) からデータを抽出する。
データアクセスパターンに基づいて適切なデータ形式 (Parquet、JSON、CSV、ORC など) を選択する。
Amazon SageMaker Data Wrangler および SageMaker Feature Store にデータを取り込む。
複数のソースからデータをマージする (プログラミング手法、AWS Glue、Apache Spark の使用などによる)。
容量とスケーラビリティに関係するデータ取り込みとストレージの問題をトラブルシューティングおよびデバッグする。
コスト、パフォーマンス、データ構造に基づいてストレージに関する初期考慮事項を決定する。

対象知識:

データクリーニングおよびデータ変換の手法 (外れ値の検出と処理、欠損データの補完、結合、重複排除など)
特徴量エンジニアリング手法 (データのスケーリングと標準化、特徴量分割、ビニング、ログ変換、正規化など)
エンコーディング手法 (ワンホットエンコーディング、バイナリエンコーディング、ラベルエンコーディング、トークン化など)
データと特徴量を調査、可視化、変換するためのツール (SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew など)
ストリーミングデータを変換するサービス (AWS Lambda、Spark など)
高品質のラベル付きデータセットを作成するデータアノテーションおよびラベリングサービス

対象スキル:

AWS ツール (AWS Glue、DataBrew、Amazon EMR で稼働する Spark、SageMaker Data Wrangler など) を使用してデータを変換する。
AWS ツール (SageMaker Feature Store など) を使用して特徴量を作成および管理する。
AWS のサービス (SageMaker Ground Truth、Amazon Mechanical Turk など) を使用してデータを検証およびラベリングする。

対象知識:

対象スキル:

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

AWS Certified Machine Learning Engineer - Associate (MLA-C01)

コンテンツ分野 2: ML モデルの開発