本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
串流工作
EMR無伺服器中的串流工作是一種工作模式,可讓您以近乎即時的速度分析和處理串流資料。這些長時間執行的工作輪詢串流資料,並在資料到達時持續處理結果。串流作業最適合需要即時資料處理的工作,例如近乎即時的分析、詐騙偵測和建議引擎。EMR無伺服器串流作業可提供最佳化功能,例如內建工作備援、即時監控、增強的記錄管理,以及與串流連接器整合。
以下是一些串流工作的使用案例:
-
近乎即時的分析 — Amazon EMR Serverless 中的串流任務可讓您以近乎即時的方式處理串流資料,因此您可以對連續資料串流 (例如日誌資料、感應器資料或點擊流資料) 執行即時分析,以獲得見解並根據最新資訊及時做出決策。
-
詐騙偵測 — 當您分析資料串流並識別可疑模式或異常發生時,您可以使用串流作業在金融交易、信用卡作業或線上活動中執行近乎即時的詐騙偵測。
-
建議引擎 — 串流作業可以處理使用者活動資料並更新建議模型。這樣做會根據行為和偏好開啟個人化和即時建議的可能性。
-
社交媒體分析 — 串流工作可以處理社交媒體資料,例如推文、留言和貼文,因此組織可以近乎即時地監控趨勢、情緒分析和管理品牌聲譽。
-
物聯網 (IoT) 分析 — 串流任務可以處理和分析來自 IoT 裝置、感應器和連線機械的高速資料串流,因此您可以執行異常偵測、預測性維護和其他 IoT 分析使用案例。
-
點擊流分析 — 流任務可以處理和分析來自網站或移動應用程序的點擊流數據。使用此類資料的企業可以執行分析,進一步瞭解使用者行為、個人化使用者體驗,以及最佳化行銷宣傳活動。
-
記錄監控和分析 — 串流作業也可以處理來自伺服器、應用程式和網路裝置的記錄資料。這可為您提供異常偵測、疑難排解,以及系統健康狀態和效能。
主要優點
EMR無伺服器中的串流作業會自動提供工作備援,這是下列因素的組合:
-
自動重試 — EMR 無伺服器會自動重試任何失敗的工作,而無需您手動輸入。
-
可用區域 (AZ) 備援 — 如果原始 AZ 發生問題,EMR無伺服器會自動將串流作業切換至運作良好的可用區域。
-
日誌管理:
-
記錄輪替 — 為了更有效率的磁碟儲存管理,EMRServerless 會定期輪換長串流工作的記錄檔。這樣做可防止記錄累積可能會消耗所有磁碟空間。
-
記錄壓縮 — 協助您有效率地管理及最佳化受管理持續性中的記錄檔。當您使用受管理的 spark 歷程記錄伺服器時,壓縮也會改善偵錯體驗。
-
支援的資料來源和資料接收器
EMR無伺服器可與多個輸入資料來源和輸出資料接收器搭配使用:
-
支援的輸入資料來源 — Amazon Kinesis Data Streams、適用於 Apache 卡夫卡的 Amazon 受管串流,以及自我管理的 Apache 卡夫卡叢集。根據預設,Amazon 7.1.0 及更高EMR版本包含 Amazon Kinesis Data Streams 連接器,因此您不需要建立或下載任何額外的套件。
-
支援的輸出資料接收器 — AWS Glue 數據目錄表,Amazon S3,Amazon Redshift,我的,Postgre SQL 甲骨文SQL,甲骨文,Microsoft,阿帕奇冰山SQL,三角洲湖和阿帕奇胡迪。
考量與限制
使用串流工作時,請記住下列考量事項和限制。
-
Amazon 7.1.0 及更高EMR版本支援串流任務。
-
EMRServerless 預期串流作業會長時間執行,因此您無法設定執行逾時來限制工作的執行時間。
-
串流作業僅與 Spark 引擎相容,該引擎建立在結構化串流架構
之上。 -
EMR無伺服器會無限期地重試串流作業,而且您無法自訂最大嘗試次數。如果失敗的嘗試次數超過了每小時窗口設置的閾值,則會自動包含鞭打防止以停止工作重試。預設臨界值為一小時內的五次失敗嘗試。您可以將此臨界值設定為 1 到 10 次嘗試之間。如需詳細資訊,請參閱 Job 復原。
-
串流工作具有儲存執行階段狀態和進度的檢查點,因此EMR無伺服器可以從最新的檢查點繼續串流工作。如需詳細資訊,請參閱 Apache Spark 文件中的使用檢查點從失敗中復原
。