AWS Glue for Ray での Ray Core と Ray Data の使用
Ray は、クラスター全体に作業を分散することで Python スクリプトをスケールアップするためのフレームワークです。Ray はさまざまな問題の解決策として利用できます。つまり、特定のタスクを最適化するためのライブラリを提供しています。AWS Glue では、Ray を使用して大規模なデータセットを変換することに重点を置いています。AWS Glue は Ray Core の一部と Ray Data をサポートしているため、このタスクが容易になります。
Ray Core とは
分散アプリケーションを構築する最初のステップは、同時に実行できる作業を特定して定義することです。Ray Core には、同時に実行できるタスクを定義するために使用する Ray の機能が一部含まれています。Ray では、提供されるツールを学習するのに役立つリファレンスおよびクイックスタート情報を入手できます。詳細については、「What is Ray Core?
Ray のタスクとアクター
AWS Glue for Ray ドキュメントでは、Ray の中核的な概念であるタスクとアクターについて言及することがあります。
Ray では、分散コンピューティングシステムの構成要素として Python の関数とクラスを使用します。Python の関数や変数をクラスで使用すると「メソッド」や「属性」になるのと同様に、ワーカーにコードを送信するために Ray で使用すると、関数は「タスク」になり、クラスは「アクター」になります。Ray で使用される可能性のある関数やクラスは、@ray.remote
アノテーションで識別できます。
タスクとアクターは設定可能で、ライフサイクルがあり、そのライフサイクルを通じてコンピューティングリソースを消費します。エラーをスローするコードは、問題の根本原因を見つける場合に、タスクまたはアクターまでさかのぼることができます。したがって、AWS Glue for Ray ジョブの設定、モニタリング、デバッグの方法を学習するときに、これらの用語が出現する可能性があります。
タスクとアクターを効果的に使用して分散アプリケーションを構築する方法を学習するには、Ray のドキュメントの「Key Concepts
AWS Glue for Ray での Ray Core
AWS Glue for Ray 環境では、ログの収集と視覚化だけでなく、クラスターの形成とスケーリングも管理します。こうした懸念事項を管理しているため、当社は、オープンソースのクラスターでこれらの対処に使用される、Ray Core の API へのアクセスとサポートを制限しています。
マネージド Ray2.4
ランタイム環境では、以下はサポートされていません。
ray.util.metrics
Prometheus メトリクスユーティリティメソッド:その他のデバッグツール
Ray Data とは
データソースや送信先に接続する場合、データセットを処理する場合、一般的な変換を開始する場合などに Ray Data を使用すれば、Ray データセットの変換に関する問題を Ray で簡単に解決できます。Ray Data の使用方法の詳細については、「Ray Datasets: Distributed Data Preprocessing
Ray Data やその他のツールを使用すると、データにアクセスできます。Ray 内におけるデータへのアクセスの詳細については、「Ray ジョブのデータに接続する」を参照してください。
AWS Glue for Ray での Ray Data
Ray Data では、マネージド Ray2.4
ランタイム環境がデフォルトでサポートおよび提供されています。提供されるモジュールの詳細については、「Ray ジョブで提供されるモジュール」を参照してください。