コンテンツ分野 1: 機械学習 (ML) のためのデータ準備
タスク 1.1: データを取り込んで保存する。
対象知識:
データフォーマットと取り込みメカニズム (検証済みフォーマットと未検証フォーマット、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO など)
AWS の主要なデータソース (Amazon S3、Amazon EFS、Amazon FSx for NetApp ONTAP など) の使用方法
AWS のストリーミングデータソース (Amazon Kinesis、Apache Flink、Apache Kafka など) を使用してデータを取り込む方法
AWS のストレージオプション (ユースケースとトレードオフなど)
対象スキル:
関連する AWS のサービスオプション (Amazon S3 Transfer Acceleration、Amazon EBS プロビジョンド IOPS など) を使用してストレージ (Amazon S3、Amazon EBS、Amazon EFS、Amazon RDS、Amazon DynamoDB など) からデータを抽出する。
データアクセスパターンに基づいて適切なデータ形式 (Parquet、JSON、CSV、ORC など) を選択する。
Amazon SageMaker Data Wrangler および SageMaker Feature Store にデータを取り込む。
複数のソースからデータをマージする (プログラミング手法、AWS Glue、Apache Spark の使用などによる)。
容量とスケーラビリティに関係するデータ取り込みとストレージの問題をトラブルシューティングおよびデバッグする。
コスト、パフォーマンス、データ構造に基づいてストレージに関する初期考慮事項を決定する。
タスク 1.2: データを変換し、特徴量エンジニアリングを実行する。
対象知識:
データクリーニングおよびデータ変換の手法 (外れ値の検出と処理、欠損データの補完、結合、重複排除など)
特徴量エンジニアリング手法 (データのスケーリングと標準化、特徴量分割、ビニング、ログ変換、正規化など)
エンコーディング手法 (ワンホットエンコーディング、バイナリエンコーディング、ラベルエンコーディング、トークン化など)
データと特徴量を調査、可視化、変換するためのツール (SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew など)
ストリーミングデータを変換するサービス (AWS Lambda、Spark など)
高品質のラベル付きデータセットを作成するデータアノテーションおよびラベリングサービス
対象スキル:
AWS ツール (AWS Glue、DataBrew、Amazon EMR で稼働する Spark、SageMaker Data Wrangler など) を使用してデータを変換する。
AWS ツール (SageMaker Feature Store など) を使用して特徴量を作成および管理する。
AWS のサービス (SageMaker Ground Truth、Amazon Mechanical Turk など) を使用してデータを検証およびラベリングする。
タスク 1.3: データの完全性を確保し、モデリングに向けてデータを準備する。
対象知識:
数値、テキスト、画像データのトレーニング前のバイアスメトリクス [クラス不均衡 (CI)、ラベル比率の差 (DPL) など]
数値、テキスト、画像データセットの CI に対処するための戦略 (合成データの生成、リサンプリングなど)
データを暗号化する手法
データの分類、匿名化、マスキング
コンプライアンス要件の影響 [個人を特定できる情報 (PII)、保護対象医療情報 (PHI)、データレジデンシーなど]
対象スキル:
データ品質を検証する (DataBrew と AWS Glue Data Quality の使用など)。
AWS ツール (SageMaker Clarify など) を使用して、データのバイアスの原因 (選択バイアス、測定バイアスなど) を特定して対策を講じる。
予測バイアスを軽減するためにデータを準備する (データセットの分割、シャッフル、拡張の使用などによる)。
モデルトレーニングリソース (Amazon EFS、Amazon FSx など) にロードするようにデータを設定する。