本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Hudi CLI
您可以使用 Hudi CLI 管理 Hudi 数据集,以查看有关提交、文件系统、统计信息等的信息。还可以使用 CLI 手动执行压缩、计划压缩或取消计划的压缩。有关更多信息,请参阅 Apache Hudi 文档中的 CLI 互动
启动 Hudi CLI 并连接到数据集
-
使用 SSH 连接主节点。有关更多信息,请参阅《Amazon EMR 管理指南》中的使用 SSH 连接到主节点。
-
在命令行中,键入
/usr/lib/hudi/cli/bin/hudi-cli.sh
。命令提示符更改为
hudi->
。 -
使用以下命令连接到数据集。
s3://amzn-s3-demo-bucket/myhudidataset
替换为要使用的数据集的路径。我们使用的值与前面示例中建立的值相同。connect --path
s3://amzn-s3-demo-bucket/myhudidataset
命令提示符将更改以包括您连接到的数据集,如以下示例所示。
hudi:
myhudidataset
->
默认情况下,Amazon EMR 7.3.0 发行版中的 hudi-cli.sh
脚本使用 hudi-cli-bundle.jar
。如果遇到问题,可以使用以下命令切换回经典 Hudi CLI:
/usr/lib/hudi/cli/bin/hudi-cli.sh --cliBundle false
此命令运行 hudi-cli.sh
脚本,设置 --cliBundle
标志,并指示 CLI 使用单个 JAR 文件而不是捆绑的 JAR。默认情况下,将 --cliBundle
设置为 true,这意味着 CLI 改用捆绑的 JAR。