Paimon安装1.0.6+
# 基于 Ambari 安装 Paimon 服务
Apache Paimon 是一款支持变更捕获、流批一体和主键管理的表格式存储系统,适用于数据湖场景下高频数据写入与统一查询。常见搭配包括 Flink 作为写入引擎、Trino/Spark 作为分析引擎。
本文将介绍如何通过 Ambari 以 Client 模式集成部署 Paimon 服务,实现对 Catalog 和数据目录的可控管理,方便在全节点实现 CLI 操作与作业联调。
# 1. 添加 Paimon 服务
首先进入 Ambari 控制台,点击左上角菜单 Add Service,在服务列表中找到并勾选 Paimon,如下图所示:
本服务来源为自定义集成,默认内置 Flink Catalog 模板,当前适配的版本为 Paimon 1.0.1,可兼容 Trino 474 和 Flink 1.15 以上版本。
提示
Paimon 是无状态服务,组件本身不常驻运行,所有操作通过 CLI 或 Catalog 集成方式完成。
# 2. 分配组件到节点(Client)
Paimon 不包含 Master/Worker 类角色,仅包含 Client,因此必须手动在目标主机上勾选 Client。
如下图,我们选择了 hadoop1~3
三台主机,并在右侧为其全部勾选了 Paimon Client:
这种全节点部署模式可以确保每台机器都可以:
- 执行
paimon
CLI 工具 - 发起 catalog 连接
- 参与 Flink Job 或 Trino 查询
即使当前只在 hadoop1
上使用 Paimon
CLI,后期任意节点切换时也无需重复部署,兼具灵活性与高可用性,是实际运维中的 推荐部署方式。
注意
如果未部署 Client,某些组件(如 Flink Sink、Trino Catalog)在对应主机上将无法正常加载 Paimon 插件。
# 3. 启动安装流程
点击下一步后,Ambari 会进入安装流程,并显示每个节点当前的状态进度。
初始阶段系统提示正在安装客户端:
此阶段为服务包下发 + 软链接部署 + CLI 校验等过程。
笔记
安装过程非常快,Paimon 本身无需拉取额外依赖,也不会启动长期运行的守护进程。
# 4. 安装完成并启动成功
等待几秒,安装任务进度条走满后,所有主机会变为绿色状态,表示部署完成。
你可以点击每一条记录进入详情查看日志输出,确认是否有告警项或非零退出码。此处我们可见所有机器都返回了100% 。
# 5. 服务状态校验
返回 Ambari 首页,在左侧服务列表中点击 Paimon,即可进入该服务的 Summary 页面:
页面显示:
- 3 个 Client 节点已成功注册
- 无需额外配置 Quick Links
- 没有 Master/Worker 类型角色
表示本服务部署完毕后几乎无常驻资源消耗,非常适合大集群场景。轻量级部署