本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Hudi CLI
您可以使用 Hudi CLI 來管理 Hudi 資料集,以檢視有關遞交、檔案系統、統計資料等資訊。您也可以使用 CLI 手動執行壓縮、排程壓縮或取消排程壓縮。如需詳細資訊,請參閱 Apache Hudi 文件中的透過 CLI 互動
啟動 Hudi CLI 並連接至資料集
-
使用 SSH 連接至主節點。如需詳細資訊,請參閱《Amazon EMR 管理指南》中的使用 SSH 連接至主節點。
-
在命令列輸入
/usr/lib/hudi/cli/bin/hudi-cli.sh
。命令提示會變更為
hudi->
。 -
使用下列命令來連線至資料集。將
s3://amzn-s3-demo-bucket/myhudidataset
取代為您要使用的資料集路徑。我們使用的值與先前範例中建立的值相同。connect --path
s3://amzn-s3-demo-bucket/myhudidataset
命令提示字元會變更為包含您連線的資料集,如下列範例所示。
hudi:
myhudidataset
->
根據預設,Amazon EMR 7.3.0 版中的hudi-cli.sh
指令碼會使用 。 hudi-cli-bundle.jar
如果您遇到問題,您可以使用下列命令切換回傳統 Hudi CLI:
/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false
此命令會執行hudi-cli.sh
指令碼、設定--cliBundle
旗標,並指示 CLI 使用個別 JAR 檔案,而非綁定的 JAR。根據預設, --cliBundle
會設為 true,這表示 CLI 會改用綁定的 JAR。