翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
EMR Studio の機能、要件、制限
このトピックには、リージョンとツール、クラスターの要件、技術的な制限に関する考慮事項など、Amazon EMR Studio を使用する際に考慮すべき項目が含まれています。
考慮事項
EMR Studio を使用する場合は、次の点を考慮してください。
-
EMR Studio は、次の場所で使用できます AWS リージョン。
-
米国東部 (オハイオ) (us-east-2)
-
米国東部 (バージニア北部) (us-east-1)
-
米国西部 (北カリフォルニア) (us-west-1)
-
米国西部 (オレゴン) (us-west-2)
-
アフリカ (ケープタウン) (af-south-1)
-
アジアパシフィック (香港) (ap-east-1)
-
アジアパシフィック (ジャカルタ) (ap-southeast-3)*
-
アジアパシフィック (メルボルン) (ap-southeast-4)*
-
アジアパシフィック (ムンバイ) (ap-south-1)
-
アジアパシフィック (大阪) (ap-northeast-3)*
-
アジアパシフィック (ソウル) (ap-northeast-2)
-
アジアパシフィック (シンガポール) (ap-southeast-1)
-
アジアパシフィック (シドニー) (ap-southeast-2)
-
アジアパシフィック (東京) (ap-northeast-1)
-
カナダ (中部) (ca-central-1)
-
ヨーロッパ (フランクフルト) (eu-central-1)
-
欧州 (アイルランド) (eu-west-1)
-
ヨーロッパ (ロンドン) (eu-west-2)
-
欧州 (ミラノ) (eu-south-1)
-
欧州 (パリ) (eu-west-3)
-
欧州 (スペイン) (eu-south-2)
-
欧州 (ストックホルム) (eu-north-1)
-
欧州 (チューリッヒ) (eu-central-2)*
-
イスラエル (テルアビブ) (il-central-1)*
-
中東 (UAE) (me-central-1)*
-
南米 (サンパウロ) (sa-east-1)
-
AWS GovCloud (米国東部) (gov-us-east-1)
-
AWS GovCloud (米国西部) (gov-us-west-1)
* これらのリージョンではライブ版の Spark UI はサポートされていません。
-
-
ユーザーが Workspace EC2の Amazon で実行されている新しいEMRクラスターをプロビジョニングできるようにするには、EMRStudio をクラスターテンプレートのセットに関連付けることができます。管理者は、Service Catalog でクラスターテンプレートを定義できます。また、Studio 内でユーザーまたはグループがクラスターテンプレートにアクセスできるのか、できないかを選択できます。
-
Amazon S3 に保存されているノートブックファイルへのアクセス許可を定義する場合、またはシークレットを読み取る場合は AWS Secrets Manager、Amazon EMRサービスロールを使用します。セッションポリシーは、これらのアクセス許可ではサポートされません。
-
複数の EMR Studio を作成して、異なる のEMRクラスターへのアクセスを制御できますVPCs。
-
を使用して AWS CLI クラスターEMRに Amazon をセットアップEKSします。その後、Studio インターフェイスを使用して、マネージドエンドポイントを使用して Workspace にクラスターをアタッチして、ノートブックジョブを実行できます。
-
EMR Studio EMRにも適用される Amazon で信頼できる ID の伝播を使用する場合は、他にも考慮事項があります。詳細については、「Amazon EMRと Identity Center の統合に関する考慮事項と制限事項」を参照してください。
-
EMR Studio では、次の Python マジックコマンドはサポートされていません。
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
%configure
を使用したproxy_user
の変更 -
%env
または%set_env
を使用したKERNEL_USERNAME
の変更
-
-
EKS クラスターEMR上の Amazon は EMR Studio の SparkMagic コマンドをサポートしていません。
-
ノートブックのセルに複数行の Scala ステートメントを記述する場合は、最後の行以外のすべての行がピリオドで終わっていることを確認してください。次の例では、複数行の Scala ステートメントで正しい構文を使用しています。
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Amazon で使用する可能性のあるオフコンソールアプリケーションのセキュリティを強化するためにEMR、ドメインをホストするアプリケーションはパブリックサフィックスリスト () に登録されますPSL。これらのホスティングドメインの例には以下が含まれます:
emrstudio-prod.us-east-1.amazonaws.com
、emrnotebooks-prod.us-east-1.amazonaws.com
、emrappui-prod.us-east-1.amazonaws.com
セキュリティ強化のため、デフォルトのドメイン名に機密性の高い Cookie を設定する必要がある場合は、__Host-
プレフィックスの付いた Cookie を使用することをお勧めします。これにより、クロスサイトリクエストの偽造の試み () からドメインを防御できますCSRF。詳細については、『』を参照してください。Set-CookieMozilla デベロッパーネットワークの ページ。 -
Amazon EMR Studio Workspace と永続 UI エンドポイントはFIPS、140-2 検証済みの暗号化モジュールを に使用します。これにより encryption-in-transit、規制されたワークロードにサービスを簡単に導入できます。永続 UI エンドポイントのその他のコンテキストについては、「Amazon で永続アプリケーションユーザーインターフェイスEMRを表示する」を参照してください。ノートブックに関するその他のコンテキストについては、「Amazon EMR Notebooks の概要」を参照してください。
既知の問題
-
信頼できる ID 伝達を有効にして IAM Identity Center を使用する EMR Studio は、信頼できる ID 伝達も使用するEMRクラスターにのみ関連付けることができます。
-
などのプロキシ管理ツールを必ず非アクティブ化してください。FoxyProxy or SwitchyOmega Studio を作成する前に、ブラウザで を使用します。アクティブなプロキシを使用している場合、[Create Studio] (Studio の作成) を選択するとエラーが発生し、[Network Failure] (ネットワーク障害) エラーメッセージが表示されることがあります。
-
EKS クラスターで Amazon EMR で実行されるカーネルは、タイムアウトの問題により起動に失敗することがあります。カーネルの起動中にエラーまたは問題が発生した場合は、ノートブックファイルを閉じ、カーネルをシャットダウンしてから、ノートブックファイルを再度開きます。
-
EKS クラスターEMRで Amazon を使用する場合、カーネルの再起動オペレーションは期待どおりに動作しません。[Restart kernel] (カーネルの再起動) を選択した後に、Workspace を更新して再起動を有効にします。
-
Workspace がクラスターにアタッチされていない場合、Studio ユーザーがノートブックファイルを開いてカーネルを選択しようとすると、エラーメッセージが表示されます。このエラーメッセージは、[OK]を選択して無視して構いません。ただし、ノートブックコードを実行するには、その前に Workspace をクラスターにアタッチし、カーネルを選択する必要があります。
-
セキュリティ設定で Amazon EMR6.2.0 を使用してクラスターセキュリティを設定すると、Workspace インターフェイスは空白になり、期待どおりに動作しません。クラスターの に対してデータ暗号化または Amazon S3 認可を設定するEMR場合はEMRFS、サポートされている別のバージョンの Amazon を使用することをお勧めします。 Amazon S3 EMR Studio は、Amazon EMRバージョン 5.32.0 (Amazon EMR 5.x シリーズ) および 6.2.0 (Amazon EMR 6.x シリーズ) 以降で動作します。
-
「Amazon EC2ジョブでEMR実行されている Amazon をデバッグする」を行うと、クラスター上の Spark UI へのリンクが機能しないか、表示されないことがあります。リンクを再生成するには、新しいノートブックセルを作成し、
%%info
コマンドを実行します。 -
Jupyter Enterprise Gateway は、5.32.0、5.33.0、6.2.0、および 6.3.0 の Amazon EMRリリースバージョンでは、クラスターのプライマリノード上のアイドル状態のカーネルをクリーンアップしません。アイドル状態のカーネルはコンピューティングリソースを消費するため、長時間稼働クラスターが失敗する原因となる可能性があります。次のサンプルスクリプトを使用して、Jupyter Enterprise Gateway のアイドル状態のカーネルのクリーンアップを設定できます。「を使用して Amazon EMRクラスターのプライマリノードに接続する SSH」やステップとしてのスクリプトの送信を行うことができます。詳細については、「Amazon EMRクラスターでコマンドとスクリプトを実行する」を参照してください。
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Amazon EMRバージョン 5.32.0、5.33.0、6.2.0、または 6.3.0 で自動終了ポリシーを使用すると、Amazon はクラスターをアイドルとしてEMRマークし、アクティブな Python3 カーネルがある場合でもクラスターを自動的に終了することがあります。これは、Python3 カーネルを実行しても Spark ジョブがクラスターで送信されないためです。Python3 カーネルで自動終了を使用するには、Amazon EMRバージョン 6.4.0 以降を使用することをお勧めします。自動終了の詳細については、「Amazon EMRクラスタークリーンアップの自動終了ポリシーの使用」を参照してください。
-
%%display
を使用して Spark をテーブルに表示する DataFrame と、非常に広いテーブルが切り捨てられる可能性があります。出力を右クリックして[Create New View for Output] (出力用の新しいビューを作成) を選択し、出力のスクロール可能なビューを取得できます。 -
Spark、Spark PySpark、SparkR などの Spark ベースのカーネルを起動すると、Spark セッションが開始され、ノートブックでセルを実行すると、そのセッションで Spark ジョブがキューに入れられます。実行中のセルを中断すると、Spark ジョブは引き続き実行されます。Spark ジョブを停止するには、クラスター上の Spark UI を使用する必要があります。Spark UI に接続する方法の手順については、「EMR Studio でアプリケーションとジョブをデバッグする」を参照してください。
-
Amazon EMR Studio Workspace を のルートユーザーとして使用すると、
403: Forbidden
エラー AWS アカウント が発生します。これは、Amazon の Jupyter Enterprise Gateway 設定でルートユーザーへのアクセスが許可されEMRていないためです。日常的なタスクには、ルートユーザーを使用しないことをお勧めします。その他の認証オプションについては、AWS Identity and Access Management 「 for Amazon EMR」を参照してください。
機能の制限
Amazon EMR Studio では、以下の Amazon EMR機能はサポートされていません。
-
Kerberos 認証を指定するセキュリティ設定を使用してEMRクラスターにジョブをアタッチして実行する
-
複数のプライマリノードを持つクラスター
-
6.9.0 より前の Amazon 6.x EMR リリースと 5.36.1 より前の 5.x リリースで、 AWS Graviton2 に基づく Amazon EC2インスタンスを使用するクラスター
信頼できる ID 伝達を使用する Studio では、以下の機能はサポートされません。
-
テンプレートなしでEMRクラスターを作成する。
-
EMR サーバーレスアプリケーションの使用。
-
EKS クラスターEMRでの Amazon の起動。
-
ランタイムロールの使用。
-
SQL Explorer または Workspace コラボレーションを有効にします。
EMR Studio のサービス制限
次の表に、EMRStudio のサービス制限を示します。
項目 | [制限] |
---|---|
EMR スタジオ | AWS アカウントあたり最大 100 |
サブネット | Studio ごとに最大 5 EMR つまで関連付けられます |
IAM Identity Center グループ | 各 EMR Studio に割り当てられる最大 5 個 |
IAM Identity Center ユーザー | 各 EMR Studio に割り当てられる最大 100 |