TT Bigdata TT Bigdata
首页
  • 部署专题

    • 常规安装
    • 一键部署
  • 组件安装

    • 常规&高可用
  • 版本专题

    • 更新说明
  • Ambari-Env

    • 环境准备
    • 开始使用
  • 组件编译

    • 专区—Ambari
    • 专区—Bigtop
  • 报错解决

    • 专区—Ambari
    • 专区—Bigtop
  • 其他技巧

    • Maven镜像加速
    • Gradle镜像加速
    • Bower镜像加速
    • 虚拟环境思路
    • R环境安装+一键安装脚本
    • Ivy配置私有镜像仓库
    • Node.js 多版本共存方案
    • Ambari Web本地启动
    • Npm镜像加速
    • PostgreSQL快速安装
    • Temurin JDK 23快速安装
  • 成神之路

    • 专区—Ambari
    • 专区—Bigtop
  • 集成案例

    • Redis集成教学
    • Dolphin集成教学
    • Doris集成教学
    • 持续整理...
  • 模板代码

    • 各类组件
    • 通用模板
  • 国产化&其他系统

    • Centos系列
    • Kylin系列
    • OpenEuler系列
    • Rocky系列
    • Ubuntu系列
  • 生产调优

    • 组件调优指南
    • 1v1指导调优
  • 定制开发

    • 组件版本定制
    • 样式风格定制
  • 蓝图愿景
  • 技术支持
  • 合作共建
GitHub (opens new window)

JaneTTR

数据酿造智慧,每一滴都是沉淀!
首页
  • 部署专题

    • 常规安装
    • 一键部署
  • 组件安装

    • 常规&高可用
  • 版本专题

    • 更新说明
  • Ambari-Env

    • 环境准备
    • 开始使用
  • 组件编译

    • 专区—Ambari
    • 专区—Bigtop
  • 报错解决

    • 专区—Ambari
    • 专区—Bigtop
  • 其他技巧

    • Maven镜像加速
    • Gradle镜像加速
    • Bower镜像加速
    • 虚拟环境思路
    • R环境安装+一键安装脚本
    • Ivy配置私有镜像仓库
    • Node.js 多版本共存方案
    • Ambari Web本地启动
    • Npm镜像加速
    • PostgreSQL快速安装
    • Temurin JDK 23快速安装
  • 成神之路

    • 专区—Ambari
    • 专区—Bigtop
  • 集成案例

    • Redis集成教学
    • Dolphin集成教学
    • Doris集成教学
    • 持续整理...
  • 模板代码

    • 各类组件
    • 通用模板
  • 国产化&其他系统

    • Centos系列
    • Kylin系列
    • OpenEuler系列
    • Rocky系列
    • Ubuntu系列
  • 生产调优

    • 组件调优指南
    • 1v1指导调优
  • 定制开发

    • 组件版本定制
    • 样式风格定制
  • 蓝图愿景
  • 技术支持
  • 合作共建
GitHub (opens new window)
  • 最小化安装

    • Zookeeper 安装
    • Hadoop 安装
    • Yarn安装
    • Hive 安装
    • Spark 安装
    • HBase 安装
    • Kafka 安装
    • Sqoop 安装
    • Flink 安装
    • DolphinScheduler 安装
    • Zeppelin 安装
    • Redis 安装
    • Doris安装
    • Celeborn安装
    • Ozone安装
    • Impala安装
    • Cloudbeaver 安装
    • Ambari Metrics安装
    • Solr安装
    • Ranger 安装
    • Trino安装
    • Paimon安装
    • Hudi安装
      • 基于 Ambari 安装 Hudi 服务
        • 1. 添加 Hudi 服务
        • 2. 分配 Hudi Client 到目标节点
        • 3. 安装进度追踪与日志查看
        • 4. 安装完成,查看 Summary 状态
        • 5. Hudi 安装目录结构说明
        • 6. 启动 Hudi CLI 并验证输出
    • Atlas 安装
    • Superset 安装
  • 高可用安装(有难度)

  • 组件安装
  • 最小化安装
JaneTTR
2025-04-25
目录

Hudi安装1.0.6+

# 基于 Ambari 安装 Hudi 服务

Apache Hudi(Hadoop Upserts Deletes and Incrementals)是构建数据湖的核心组件之一,具备:

  • ✅ 插入、更新、删除能力;
  • ✅ 增量拉取与实时流式写入;
  • ✅ 支持 Copy-on-Write 和 Merge-on-Read 存储引擎;
  • ✅ 完善的 CLI 与 API 工具链。

Hudi 可作为 Spark/Flink 作业的 Sink 端,同时通过 Hive/Trino/Spark SQL 访问数据,是构建现代数据湖仓架构的关键模块。


# 1. 添加 Hudi 服务

在 Ambari 控制台中点击 Add Service,进入服务选择界面,勾选 Hudi 后点击下一步:

勾选 Hudi 服务

当前 Hudi 集成版本为 1.1.0,具备完整 CLI 工具与 Spark 引擎兼容模块,支持在 Hadoop 平台上增量写入与流批查询。

提示

该版本适配 Spark 2.4.x ~ 3.5.x,可配合 Hive、Trino 等引擎进行联邦访问。


# 2. 分配 Hudi Client 到目标节点

由于 Hudi 不包含 Master、Worker 类型角色,实际部署仅包括 CLI 工具和 JAR 包,因此只需为各主机分配 Client 即可。

分配 Client 角色

本例中我们将 Client 安装到 hadoop1、hadoop2、hadoop3 三个主机,部署为 全节点 CLI 可用 ,以支持后续任意节点执行操作或联调脚本。

注意

未安装 Client 的节点无法使用 CLI,也无法参与 Hudi 表增量写入调度。


# 3. 安装进度追踪与日志查看

点击 Next,进入服务安装流程:

安装流程执行中

此阶段主要包括:

  • Hudi 客户端包下发;
  • 配置文件软链部署;
  • 启动脚本配置与权限处理。

笔记

如安装失败,可点击主机列表查看详细日志,常见原因包括 JDK 缺失、磁盘空间不足、YARN 权限错误等。


# 4. 安装完成,查看 Summary 状态

安装完成后,进入 Hudi 服务 Summary 页面:

安装成功页面

此时可以确认服务状态为绿色,并且每个节点成功部署了 Client。


# 5. Hudi 安装目录结构说明

查看 /usr/bigtop/current/hudi-client 目录内容,默认包含如下结构:

ls -al /usr/bigtop/current/hudi-client
1

目录结构

目录/文件 说明
bin/ 启动脚本目录,包含 hudi-cli 执行文件
lib/ 所有依赖 JAR,涵盖 Spark/Hudi/ZK
conf -> /etc/hudi/conf 配置软链
log -> /var/log/hudi 日志软链
hudi-cli-*.jar CLI 主程序入口

该目录结构设计遵循 Bigtop 规范,兼容 Ambari 管理,便于后续监控集成与日志采集。


# 6. 启动 Hudi CLI 并验证输出

执行以下命令启动 CLI:

bash /usr/bigtop/current/hudi-client/bin/hudi-cli
1

启动 CLI

CLI 成功启动后会输出 ASCII Logo、当前 JVM 信息、构建版本、CLI 模式等信息,说明环境运行正常。

你可以尝试在 CLI 中执行如下命令:

hudi-> help
hudi-> connect --path hdfs:///user/hudi/warehouse/
hudi-> table
1
2
3

CLI 可用于:

  • 创建、更新、查询表;
  • 查看写入状态;
  • 执行 compaction;
  • 查看 timeline、metadata 等;

提示

CLI 工具是调试与演练 Hudi 表最直接的方式,也可集成进脚本完成持续写入与自动清理。


#Hudi#Ambari#Spark#数据湖
Paimon安装
Atlas 安装

← Paimon安装 Atlas 安装→

最近更新
01
Pandoc 缺失导致 SparkR 构建失败
06-08
02
Cyrus SASL/GSASL 缺失解决
06-07
03
Hadoop_3.3.4 编译实战 1.0.0+
06-06
更多文章>
Theme by Vdoing | Copyright © 2017-2025 JaneTTR | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式