將亞馬遜資料 Firehose 串流交付到 Amazon S3 中的 Apache 冰山表格已處於預覽狀態,且可能會有所變更。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定備份設定
亞馬遜資料 Firehose 使用 Amazon S3 備份嘗試交付到您選擇的目的地的所有或失敗的資料。
重要
-
只有當 Firehose 串流的來源為直接PUT或 Kinesis Data Streams 時,才支援 Backup 設定。
-
零緩衝功能僅適用於應用程式目的地,不適用於 Amazon S3 備份目的地。
如果您做了下列其中一個選擇,則可以為 Firehose 串流指定 S3 備份設定。
-
如果您將 Amazon S3 設定為您的 Firehose 串流的目的地,並且您選擇指定 AWS Lambda 函數可轉換資料記錄,或者您選擇轉換 Firehose 串流的資料記錄格式。
-
如果您將 Amazon Redshift 設置為您的 Firehose 流的目的地,並選擇指定 AWS Lambda 函數來轉換數據記錄。
-
如果您將以下任何服務設置為 Firehose 流的目標-Amazon OpenSearch 服務,數據多,啟發,HTTP端點,MongoDB 雲,新遺物 LogicMonitor,濺射或相撲邏輯,雪花,阿帕奇冰山表。
以下是您的 Firehose 串流的備份設定。
-
Amazon S3 中的來源記錄備份 - 如果 S3 或 Amazon Redshift 是您選取的目的地,此設定會指出您是要啟用來源資料備份,還是保持停用狀態。如果將任何其他支援的服務 (S3 或 Amazon Redshift 除外) 設為您選取的目的地,則此設定會指示您是要備份所有來源資料,還是僅備份失敗的資料。
-
S3 備份儲存貯體-這是 Amazon 資料 Firehose 備份您資料的 S3 儲存貯體。
-
S3 備份儲存貯體前綴-這是 Amazon 資料 Firehose 備份您資料的前置詞。
-
S3 備份儲存貯體錯誤輸出字首 - 所有失敗的資料都會備份在此 S3 儲存貯體錯誤輸出字首中。
-
緩衝提示、備份的壓縮和加密-Amazon Data Firehose 使用 Amazon S3 備份嘗試傳送到您選擇目的地的所有或失敗的資料。Amazon 資料 Firehose 會先緩衝傳入的資料,然後再將其交付 (備份) 到 Amazon S3。您可以選擇 1-128 的緩衝區大小 MiBs 和 60—900 秒的緩衝區間隔。只要滿足其中一項條件,即會觸發資料交付至 Amazon S3 的動作。 如果啟用資料轉換,緩衝區間隔會從 Amazon Data Firehose 接收轉換的資料到資料交付至 Amazon S3 的資料。如果資料傳遞到目的地落後於寫入 Firehose 串流的資料,Amazon 資料 Firehose 會動態提高緩衝區大小以 catch。此動作可確保所有資料皆能成功傳送至目的地。
-
S3 壓縮-選擇GZIP、快速、Zip 或 Hadoopp 相容的快速資料壓縮,或不壓縮資料。活潑,拉鍊和 Hadoopp 兼容的活潑壓縮不適用於以 Amazon Redshift 作為目的地的 Firehose 流。
S3 檔案副檔名格式 (選用) — 為交付到 Amazon S3 目的地儲存貯體的物件指定檔案副檔名格式。如果啟用此功能,指定的副檔名將會覆寫資料格式轉換或 S3 壓縮功能 (例如 .拍板或 .gz) 所附加的預設副檔名。將此功能與資料格式轉換或 S3 壓縮搭配使用時,請確定您是否設定了正確的副檔名。副檔名必須以句點 (.) 開頭,且可包含允許的字元:0-9a-z! -_.*' ()。副檔名不能超過 128 個字元。
-
Firehose 支援 Amazon S3 伺服器端加密 AWS Key Management Service (SSE-KMS) 用於在 Amazon S3 中加密交付的資料。您可以選擇使用目的地 S3 儲存貯體中指定的預設加密類型,或使用清單中的金鑰加密 AWS KMS 您擁有的鑰匙。如果您使用加密數據 AWS KMS 鍵,您可以使用默認 AWS 受管金鑰 (aws/s3) 或客戶管理金鑰。如需詳細資訊,請參閱使用伺服器端加密來保護資料 AWS KMS-託管密鑰(SSE-KMS)。
設定緩衝提示
Amazon Data Firehose 會將記憶體中的傳入串流資料緩衝至特定大小 (緩衝大小) 和一段特定時間 (緩衝間隔),然後再將其傳送到指定的目的地。當您想要將最佳大小的檔案交付到 Amazon S3,並從資料處理應用程式獲得更好的效能,或調整 Firehose 交付率以符合目的地速度時,可以使用緩衝提示。
您可以在建立新 Firehose 串流時設定緩衝大小和緩衝區間隔,或更新現有 Firehose 串流的緩衝大小和緩衝間隔。緩衝大小的測量單位為單位MBs,緩衝間隔以秒為單位測量。不過,如果指定它們其中一個值,您也必須提供其他的值。滿足的第一個緩衝區條件會觸發 Firehose 傳送資料。如果您未設定緩衝值,則會使用預設值。
您可以通過以下方式配置 Firehose 緩衝提示 AWS Management Console, AWS Command Line Interface,或 AWS SDKs。對於現有串流,您可以使用主控台中的 「編輯」 選項或使用. UpdateDestinationAPI 對於新串流,您可以使用主控台或使用 CreateDeliveryStreamAPI. 若要調整緩衝大小,請IntervalInSeconds
在CreateDeliveryStream或UpdateDestinationAPI的目標特定DestinationConfiguration
參數中設定SizeInMBs
和。
注意
-
緩衝區提示會套用於碎片或分割區層級,而動態磁碟分割緩衝區提示則套用於串流或主題層級。
-
為了滿足即時使用案例的較低延遲,您可以使用零緩衝間隔提示。當您將緩衝間隔設定為零秒時,Firehose 不會緩衝資料,而且會在幾秒鐘內傳送資料。在您將緩衝提示變更為較低的值之前,請洽詢廠商以取得 Firehose 目的地的建議緩衝提示。
零緩衝功能僅適用於應用程式目的地,不適用於 Amazon S3 備份目的地。
-
零緩衝功能不適用於動態磁碟分割。
-
當您設定少於 60 秒的緩衝時間間隔以提供較低的延遲時間時,Firehose 會針對 S3 目的地使用多部分上傳。由於 S3 目的地的多部分上傳,如果您選擇的緩衝時間間隔少於 60 秒,則 S3
PUT
API 成本會有所增加。
如需目的地特定緩衝提示範圍和預設值,請參閱下表:
目的地 | 緩衝大小(以 MB 為單位)(默認在括號中) | 緩衝間隔 (以秒為單位) (預設值在括號中) |
---|---|---|
Amazon S3 | 一百二十八 (5) | 0-900 |
阿帕奇冰山表 | 一百二十八 (5) | 0-900 |
Amazon Redshift | 一百二十八 (5) | 0-900 |
OpenSearch 無伺服器 | 一百 | 0-900 |
OpenSearch | 一百 | 0-900 |
Splunk | 一至五 | 0-60 (60) |
Datadog | 1-4 | 九百 |
Coralogix | 1-64 (6) | 九百 |
Dynatrace | 一六四 (5) | 九百 |
彈性 | 1 | 九百 |
Honeycomb | 1-64 (15) | 九百 |
HTTP端點 | 一六四 (5) | 九百 |
LogicMonitor | 一六四 (5) | 九百 |
洛吉奧 | 一六四 (5) | 九百 |
蒙古数据库 | 1-16 (5) | 九百 |
newRelic | 一六四 (5) | 九百 |
sumoLogic | 一 | 九百 |
Splunk Observability Cloud | 一 | 九百 |
Snowflake | 一至一百二十八 (一) | 0-900 (0) |