本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用SQL轉換,以SQL查詢的形式撰寫自己的轉換。
SQL轉換節點可以有多個資料集做為輸入,但只會產生單一資料集作為輸出。在包含一個文本字段,您可以在其中輸入 Apache 星火SQL查詢。您可以為用作輸入的每個資料集指派別名,以簡化SQL查詢。如需SQL語法的詳細資訊,請參閱 S park SQL 文件
注意
如果您SQL將 Spark 轉換與位於中的資料來源搭配使用VPC,請將AWS GlueVPC端點新增至包VPC含資料來源的端點。如需設定開發端點的詳細資訊,請參閱 AWS Glue 開發人員指南中的新增開發端點、設定適用於開發端點的環境以及存取您的開發端點。
若要在工作圖中使用SQL轉換節點
-
(選用) 視需要將轉換節點新增至任務圖表。選擇「SQL查詢」作為節點類型。
注意
如果您使用資料預覽工作階段和自訂程式碼節點SQL或自訂程式碼節點,資料預覽工作階段將依原樣執行整個資料集的SQL或程式碼區塊。
-
在節點屬性索引標籤上,輸入任務圖表中節點的名稱。如果尚未選取節點父項,或者您想要多個SQL轉換輸入,請從「節點父項」清單中選擇一個節點作為轉換的輸入來源。視需要新增其他父節點。
-
選擇節點詳細資訊面板中的 Transform (轉換) 索引標籤。
-
SQL查詢的來源資料集會以您在每個節點的 [名稱] 欄位中指定的名稱來識別。如果您不想使用這些名稱,或者這些名稱不適合SQL查詢,您可以將名稱與每個資料集建立關聯。主控台提供預設別名,例如
MyDataSource
。例如,如果SQL轉換節點的父節點具有命名
Rename Org PK field
,您可能會將該名稱org_table
與此資料集建立關聯。然後可以在SQL查詢中使用此別名來代替節點名稱。 -
在標題「代碼」區塊下的文字輸入欄位中,貼上或輸入SQL查詢。文字欄位會顯示SQL語法醒目提示和關鍵字建議。
-
選取SQL轉換節點後,選擇 [輸出結構描述] 索引標籤,然後選擇 [編輯]。提供描述SQL查詢輸出欄位的資料行和資料類型。
使用頁面的 Output schema (輸出結構描述) 區段中的以下動作指定結構描述:
-
若要重新命名欄,請將游標放在欄的 Key (索引鍵) 文字方塊 (也稱為欄位或屬性索引鍵),然後輸入新名稱。
-
若要變更欄的資料類型,請從下拉式清單中選取欄的新資料類型。
-
若要將新的頂層欄新增至結構描述,請選擇 [Overflow (溢位)] ( ) 按鈕,然後選擇 Add root key (新增根索引鍵)。新的欄會加入在結構描述的頂端。
-
若要從結構描述移除欄,請選擇索引鍵名稱最右側的刪除圖示 ( )。
-
-
當您完成指定輸出結構描述時,請選擇 Apply (套用) 儲存您的變更,並結束結構描述編輯器。如果您不想儲存變更,請選擇 Cancel (取消) 以編輯結構描述編輯器。
(選用) 設定節點屬性和轉換屬性之後,您可以選擇節點詳細資訊面板中的 Data preview (資料預覽) 索引標籤來預覽修改後的資料集。第一次為工作中的任何節點選擇此索引標籤時,系統會提示您提供存取資料的IAM角色。使用此功能需要支付相關費用,並在您提供IAM角色後立即開始計費。