使用串流資料來源 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用串流資料來源

您可以建立串流擷取、轉換和載入 (ETL) 任務,讓它連續執行並從 Amazon Kinesis Data Streams、Apache Kafka 和 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 的串流來源使用資料。

設定串流資料來源的屬性
  1. 前往新任務或已儲存任務的視覺化圖表編輯器。

  2. 在 Kafka 或 Kinesis Data Streams 的圖形中選擇資料來源節點。

  3. 選擇 Data source properties (資料來源屬性) 索引標籤,然後輸入下列資訊:

    Kinesis
    • Kinesis source type (Kinesis 來源類型):選擇選項 Stream details (串流詳細資訊) 以使用直接存取串流來源,或選擇 Data Catalog table ( Data Catalog 資料表) 以改用儲存在其中的資訊。

      如果選擇 Stream details (串流詳細資訊),則指定下列其他資訊。

      • 資料串流位置:選擇串流是否與目前的使用者相關聯,或是與不同的使用者相關聯。

      • 區域:選擇串流所 AWS 區域 在的位置。此資訊用於建構存取資料串流的 ARN。

      • Stream ARN (串流 ARN):輸入 Kinesis 資料串流的 Amazon Resource Name (ARN)。如果串流位於目前帳戶內,可以從下拉式清單中選擇串流名稱。您可以使用搜尋欄位來依名稱或 ARN 搜尋資料串流。

      • Data format (資料格式):從清單中選擇資料串流使用的格式。

        AWS Glue 會自動從串流資料偵測結構描述。

      如果選擇 Data Catalog table ( Data Catalog 資料表),指定下列其他資訊。

      • Database (資料庫):(選用) 在 AWS Glue Data Catalog 中選擇資料庫,其中包含與串流資料來源相關聯的資料表。您可以使用搜尋欄位來依名稱搜尋資料庫。

      • Table (資料表):(選用) 從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog 中。您可以使用搜尋欄位來依名稱搜尋資料表。

      • Detect schema (偵測結構描述):選擇此選項可讓 AWS Glue 偵測來自串流資料的結構描述,而不是使用 Data Catalog 資料表中的結構描述資訊。如果您選擇 Stream details (串流詳細資訊) 選項,則自動啟用此選項。

    • Starting position (開始位置):依預設,ETL 任務會使用 Earliest (最早) 選項,這表示它會從串流中最早期的可用記錄開始讀取資料。您可以改為選擇 Latest (最新),這表示 ETL 任務應該從串流中的最新記錄之後開始讀取。

    • Window size (時段大小):依預設 ETL 任務以 100 秒的時段處理和寫出資料。這樣可以有效處理資料,並且可在資料到達時間比預期晚時執行彙總。您可以修改此間隔大小,以提高適時性或彙總正確性。

      AWS Glue 串流工作會使用檢查點而非工作書籤來追蹤已讀取的資料。

    • Connection options (連線選項):展開此區段以新增索引鍵-值配對,以指定其他連線選項。如需您可以在此指定哪些選項的相關資訊,請參閱《AWS Glue 開發人員指南》中的 "connectionType": "kinesis"

    Kafka
    • Apache Kafka source (Apache Kafka 來源):選擇選項 Stream details (串流詳細資訊) 以使用直接存取串流來源,或選擇 Data Catalog table ( Data Catalog 資料表) 來改用儲存在其中的資訊。

      如果選擇 Data Catalog table ( Data Catalog 資料表),指定下列其他資訊。

      • Database (資料庫):(選用) 在 AWS Glue Data Catalog 中選擇資料庫,其中包含與串流資料來源相關聯的資料表。您可以使用搜尋欄位來依名稱搜尋資料庫。

      • Table (資料表):(選用) 從清單中選擇與來源資料相關聯的資料表。此資料表必須已存在於 AWS Glue Data Catalog 中。您可以使用搜尋欄位來依名稱搜尋資料表。

      • Detect schema (偵測結構描述):選擇此選項可讓 AWS Glue 偵測來自串流資料的結構描述,而不是使用 Data Catalog 資料表中的結構描述資訊。如果您選擇 Stream details (串流詳細資訊) 選項,則自動啟用此選項。

      如果選擇 Stream details (串流詳細資訊),則指定下列其他資訊。

      • 連線名稱 (Connection name):選擇包含 Kafka 資料串流的存取和身分驗證資訊的 AWS Glue 連線。您必須將此連線與 Kafka 串流資料來源搭配使用。如果連線不存在,您可以使用 AWS Glue 主控台為您的 Kafka 資料串流建立連線。

      • Topic name (主題名稱):輸入要讀取的主題名稱。

      • Data format (資料格式):選擇從 Kafka 事件資料流讀取資料時使用的格式。

    • Starting position (開始位置):預設情況下,ETL 任務會使用 Earliest (最早) 選項,這表示它會從串流中最早期的可用記錄開始讀取資料。您可以改為選擇 Latest (最新),這表示 ETL 任務應該從串流中的最新記錄之後開始讀取。

    • Window size (時段大小):依預設 ETL 任務以 100 秒的時段處理和寫出資料。這樣可以有效處理資料,並且可在資料到達時間比預期晚時執行彙總。您可以修改此間隔大小,以提高適時性或彙總正確性。

      AWS Glue 串流任務使用檢查點而不是任務書籤來追蹤已讀取的資料。

    • Connection options (連線選項):展開此區段以新增索引鍵-值配對,以指定其他連線選項。如需您可以在此指定哪些選項的相關資訊,請參閱《AWS Glue 開發人員指南》中的 "connectionType": "kinesis"

注意

資料預覽目前不支援串流資料來源。