AWS Glue とは - AWS Glue

AWS Glue とは

AWS Glue は、分析を行うユーザーが複数のソースからのデータを簡単に検出、準備、移動、統合できるようにするサーバーレスのデータ統合サービスです。分析、機械学習、アプリケーション開発に使用できます。また、ジョブの作成、実行、ビジネスワークフローの実装のための生産性向上に役立つツールやデータ運用ツールも追加されています。

AWS Glue を使用すれば、70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理できます。抽出、変換、ロード(ETL)パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。また、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用して、カタログ化されたデータをすぐに検索し、クエリできます。

AWS Glue は、主要なデータ統合機能を単一のサービスに統合します。これは、データ検出、最新の ETL、クリーニング、変換、一元化されたカタログ作成が含まれます。また、サーバーレスなので、管理するインフラストラクチャがありません。AWS Glue は、ETL、ELT、ストリーミングなどのすべてのワークロードを 1 つのサービスで柔軟にサポートすることで、さまざまなワークロードやユーザータイプのユーザーをサポートします。

また、AWS Glue アーキテクチャ全体でデータを簡単に統合できます。AWS 分析サービスと Amazon S3 データレイクを統合します。AWS Glue では、さまざまな技術的スキルセットに合わせてカスタマイズされたソリューションを備えており、デベロッパーからビジネスユーザーまで、すべてのユーザーが使いやすい統合インターフェイスとジョブ作成ツールを用意しています。

オンデマンドで拡張できる AWS Glue を使用すれば、データの価値を最大化する価値の高いアクティビティに集中できます。あらゆるデータサイズに合わせてスケーリングでき、すべてのデータ型とスキーマの差異をサポートします。俊敏性を高め、コストを最適化するため、AWS Glue は、組み込みの高可用性と従量制料金を提供します。

料金については、AWS Glue の料金を参照してください。

AWS Glue Studio

AWS Glue Studio は、AWS Glueでのデータ統合ジョブの作成、実行、モニタリングを容易にするグラフィカルインターフェイスです。データ変換ワークフローを視覚的に作成し、AWS Glue の Apache Spark ベースのサーバーレス ETL エンジンでシームレスに実行することができます。

AWS Glue Studio を使用すると、データを収集、変換、クリーニングするジョブを作成および管理できます。AWS Glue Studio を使用して、ジョブスクリプトのトラブルシューティングや編集ができます。

AWS Glue の機能

AWS Glue の機能は、次の 3 つの主要なカテゴリに分類されます。

  • データの検出と整理

  • 分析用データの変換、準備、クリーニング

  • データパイプラインの構築とモニタリング

データの検出と整理

  • 複数のデータストアを統合して検索 – AWS ですべてのデータをカタログ化することで、複数のデータソースやシンクで保存、インデックス作成、検索を行うことができます。

  • データを自動的に検出 – AWS Glue クローラーを使用して自動的にスキーマ情報を推測し、AWS Glue Data Catalog のスキーマ情報に統合します。

  • スキーマとアクセス許可を管理 – データベースとテーブルへのアクセスを検証し、制御します。

  • さまざまなデータソースに接続 – オンプレミスと AWS の両方で複数のデータソースを活用し、AWS Glue 接続を使用してデータレイクを構築します。

分析用データの変換、準備、クリーニング

  • ジョブキャンバスインターフェイスでデータを視覚的に変換 – ビジュアルジョブエディターで ETL プロセスを定義し、データを抽出、変換、ロードするコードを自動的に生成します。

  • シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築 – スケジュール、オンデマンド、またはイベントに基づいて AWS Glue ジョブを呼び出します。

  • 転送中のストリーミングデータのクリーニングと変換 – 継続的なデータ消費が可能になり、転送中のデータをクリーニングして変換します。これにより、ターゲットデータストアでの分析が数秒でできるようになります。

  • 組み込みの機械学習によるデータの重複排除とクリーニングFindMatches 機能を使用することで、機械学習の専門知識がなくても、分析用のデータをクリーニングして準備できます。この機能は、相互に不完全な一致であるレコードを重複排除して検索します。

  • 組み込みのジョブノートブック – AWS Glue ジョブノートブックは、AWS Glue での最小限のセットアップでサーバーレスノートブックを提供するため、すぐに使用を開始できます。

  • ETL コードの編集、デバッグ、テスト – AWS Glue インタラクティブセッションを使用することで、データをインタラクティブに探索して準備できます。任意の IDE またはノートブックを使用して、データをインタラクティブに探索、実験、処理できます。

  • 機密データの定義、検出、修正 – AWS Glue の機密データ検出により、データパイプラインとデータレイク内の機密データを定義、識別、処理できます。

データパイプラインの構築とモニタリング

  • ワークロードに基づいて自動的にスケーリング – ワークロードに基づいて、リソースを動的にスケールアップまたはスケールダウンできます。これにより、ワーカーは必要な場合にのみジョブに割り当てられます。

  • イベントベースのトリガーでジョブを自動化 – イベントベースのトリガーでクローラーまたは AWS Glue ジョブを開始し、依存するジョブとクローラーのチェーンを設計します。

  • ジョブの実行とモニタリング – 選択したエンジン (Spark または Ray) を使用して AWS Glue ジョブを実行します。また、自動モニタリングツール、AWS Glue ジョブ実行のインサイト、AWS CloudTrail を使用してモニタリングします。Apache Spark UI を使用して、Spark を利用したジョブのモニタリングを改善します。

  • ETL と統合アクティビティのワークフローを定義 – ETLのワークフローと、複数のクローラー、ジョブ、トリガーの統合アクティビティを定義します。

AWS Glue のイノベーションについて学ぶ

AWS Glue の最新イノベーションについて学び、AWS Glue を使用して、セルフサービスによるデータの準備を組織全体で可能にする方法を確認できます。

AWS Glue を従来の設定にとらわれずにスケールする方法と、ジョブのモニタリングとパフォーマンスのために AWS Glue を設定する方法を確認できます。

AWS Glue の開始方法

以下のセクションから開始することが推奨されます。

AWS Glue へのアクセス

次のインターフェイスを使用して、AWS Glue ジョブの作成、表示、管理ができます。

  • AWS Glue コンソール – AWS Glue ジョブを作成、表示、管理するためのウェブインターフェイスを提供します。コンソールにアクセスするには、AWS Glue を参照してください。

  • AWS Glue Studio – AWS Glue ジョブを視覚的に作成および編集するためのグラフィカルインターフェイスを提供します。詳細については、「AWS Glue Studio でビジュアル ETL ジョブを作成する」を参照してください。

  • AWS CLI リファレンスの AWS Glue セクション – AWS Glue で使用できる AWS CLI コマンドを提供します。詳細については、「AWS Glue 向けの AWS CLI リファレンス」を参照してください。

  • AWS Glue API – デベロッパー向けの完全な API リファレンスを提供します。詳細については、「AWS Glue API」を参照してください。

AWS Glue のユーザーは、以下も使用します。

  • AWS Lake Formation–AWS Glue Data Catalog内のリソースへの詳細に設定されたアクセスコントロールを行う認可レイヤーであるサービス。

  • AWS Glue DataBrew – コードを記述せずに、データのクリーニングおよび正規化に使用できるビジュアルデータ準備ツール。