在 Amazon Athena 使用 Apache Spark - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon Athena 使用 Apache Spark

Amazon Athena 可讓您輕鬆使用 Apache Spark 以互動方式執行資料分析和探勘,而無需規劃、設定或管理資源。在 Athena 上執行 Apache Spark 應用程式表示提交 Spark 程式碼進行處理及直接接收結果,而不需要額外設定。您可以在 Amazon Athena 主控台中使用筆記本的簡化體驗,進而使用 Python 或 Athena 筆記本 API 開發 Apache Spark 應用程式。Amazon Athena 上的 Apache Spark 是無伺服器,並提供自動的隨需擴展,可提供即時啟動運算,以滿足不斷變化的資料量和處理需求。

Amazon Athena 提供如下功能:

  • Console usage (主控台用量) – 從 Amazon Athena 主控台提交 Spark 應用程式。

  • Scripting (指令碼編寫) – 在 Python 中快速且以互動方式建置和偵錯 Apache Spark 應用程式。

  • Dynamic scaling (動態擴展) – Amazon Athena 會自動判斷執行任務所需的運算和記憶體資源,並相應地將這些資源持續擴展到您指定的最大值。這種動態擴展可降低成本,而不影響速度。

  • Notebook experience (筆記本體驗) – 使用 Athena 筆記本編輯器,以運用熟悉的介面建立、編輯及執行運算。Athena 筆記本與 Jupyter 筆記本相容,並包含依照計算順序執行的儲存格清單。儲存格內容可以包括程式碼、文字、Markdown、數學、圖和豐富媒體。

如需詳細資訊,請參閱在 Amazon Athena 星火上執行 Spark SQL,以及在AWS 大數據部落格中使用 Amazon Athena 進行 Apache Spark 探索您的資料

考量與限制

  • 目前,以下 AWS 區域提供 Amazon Athena for Apache Spark:

    • 亞太區域 (孟買)

    • 亞太區域 (新加坡)

    • 亞太區域 (雪梨)

    • 亞太區域 (東京)

    • 歐洲 (法蘭克福)

    • 歐洲 (愛爾蘭)

    • 美國東部 (維吉尼亞北部)

    • 美國東部 (俄亥俄)

    • 美國西部 (奧勒岡)

  • AWS Lake Formation 不支援。

  • 不支援使用分割區投影的資料表。

  • 已啟用 Apache Spark 的工作群組可以使用 Athena 筆記本編輯器,但無法使用 Athena 查詢編輯器。只有 Athena SQL 工作群組可以使用 Athena 查詢編輯器。

  • 不支援跨引擎檢視查詢。Athena for Spark 無法查詢 Athena SQL 建立的檢視。由於兩個引擎的檢視以不同的方式進行實作,因此他們與跨引擎使用不相容。

  • 不支援 MLLib (阿帕奇星火機器學習程式庫) 和pyspark.ml套件。如需支援的 Python 程式庫清單,請參閱 預先安裝的 Python 程式庫清單

  • 目前在 Athena 中不支援 Spark 工作階段。pip install

  • 每個筆記本僅允許一個作用中的工作階段。

  • 當多個使用者使用主控台開啟工作群組中的現有工作階段時,他們會存取同一筆記本。為避免混淆,請僅開啟您自己建立的工作階段。

  • 您可能與 Amazon Athena 搭配使用的 Apache Spark 應用程式的託管域 (例如 analytics-gateway.us-east-1.amazonaws.com),會在網際網路公用尾碼清單 (PSL) 中註冊。如果您需要在域中設定敏感性 Cookie,我們建議您使用帶有 __Host- 字首的 Cookie,以協助保護您的域免受跨網站請求偽造 (CSRF) 攻擊的影響。如需更多資訊,請參閱 Mozilla.org 開發人員文件中的設定 Cookie 頁面。

  • 如需有關對 Athena 中的 Spark 筆記本、工作階段和工作群組進行疑難排解的詳細資訊,請參閱 對 Athena for Spark 進行疑難排解