使用「自動平衡處理」轉換來最佳化您的執行期 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用「自動平衡處理」轉換來最佳化您的執行期

自動平衡處理轉換會在工作者之間重新分配資料,以達到更好的效能。這對資料不平衡或其來源不允許進行足夠平行處理的情況很有幫助。在來源被壓縮或為 JDBC 的情況下,這很常見。資料的重新分配具有適度的效能成本,因此如果資料已經很平衡,最佳化可能無法減省工作量。在下方,該轉換使用 Apache Spark 重新分割,在多個最適合叢集容量的分割區之間隨機重新指派資料。高級使用者可以手動輸入多個分割區。此外,它還可以根據指定的資料欄重新整理資料,以最佳化分割資料表的寫入。這會產生更緊湊的輸出檔案。

  1. 開啟資源面板,然後選擇自動平衡處理,將新轉換新增至您的任務圖表。新增節點時選取的節點將成為其父節點。

  2. (選用) 在節點屬性索引標籤上,您可以輸入任務圖表中節點的名稱。如果尚未選取節點父項,請從節點父項清單選擇用作轉換之輸入來源的節點。

  3. (選用) 在轉換索引標籤上,您可以輸入數個分割區。一般而言,建議讓系統決定此值,但是如果您需要控制此值,可以調整乘數或輸入特定值。如果要儲存依資料欄分割的資料,您可以選擇與重新分割資料欄相同的資料欄。這樣一來,它將最大限度地減少每個分割區上的檔案數量,並避免在每個分割區內留下很多檔案,這將影響查詢該資料之工具的效能。

    螢幕擷取畫面顯示「自動平衡處理」轉換的「轉換」索引標籤。