2021-09-29 16:53 已编辑东华理工大学大数据开发工程师

关注

Flink-cdc实时读postgresql

由于公司业务需要，需要实时同步pgsql数据，我们选择使用flink-cdc方式进行

架构图：

前提步骤:

1，更改配置文件postgresql.conf

# 更改wal日志方式为logical
wal_level = logical # minimal, replica, or logical

# 更改solts最大数量（默认值为10），flink-cdc默认一张表占用一个slots
max_replication_slots = 20 # max number of replication slots

# 更改wal发送最大进程数（默认值为10），这个值和上面的solts设置一样
max_wal_senders = 20 # max number of walsender processes
# 中断那些停止活动超过指定毫秒数的复制连接，可以适当设置大一点（默认60s）
wal_sender_timeout = 180s # in milliseconds; 0 disable

wal_level是必须更改的，其它参数选着性更改，如果同步表数量超过10张建议修改为合适的值

更改配置文件postgresql.conf完成，需要重启pg服务生效，所以一般是在业务低峰期更改

2，新建用户并且给用户复制流权限

-- pg新建用户
CREATE USER user WITH PASSWORD 'pwd';

-- 给用户复制流权限
ALTER ROLE user replication;

-- 给用户登录数据库权限
grant CONNECT ON DATABASE test to user;

-- 把当前库public下所有表查询权限赋给用户
GRANT SELECT ON ALL TABLES IN SCHEMA public TO user;

3，发布表

-- 设置发布为true
update pg_publication set puballtables=true where pubname is not null; -- 把所有表进行发布
CREATE PUBLICATION dbz_publication FOR ALL TABLES; -- 查询哪些表已经发布 select * from pg_publication_tables;

4，更改表的复制标识包含更新和删除的值

-- 更改复制标识包含更新和删除之前值
ALTER TABLE test0425 REPLICA IDENTITY FULL;
-- 查看复制标识（为f标识说明设置成功）
select relreplident from pg_class where relname='test0425';

OK，到这一步，设置已经完全可以啦，上面步骤都是必须的

常用的pgsql命令（备忘）

-- pg新建用户
CREATE USER ODPS_ETL WITH PASSWORD 'odpsETL@2021'; -- 给用户复制流权限
ALTER ROLE ODPS_ETL replication; -- 给用户数据库权限
grant CONNECT ON DATABASE test to ODPS_ETL; -- 设置发布开关
update pg_publication set puballtables=true where pubname is not null; -- 把所有表进行发布
CREATE PUBLICATION dbz_publication FOR ALL TABLES; -- 查询哪些表已经发布 select * from pg_publication_tables; -- 给表查询权限
grant select on TABLE aa to ODPS_ETL; -- 给用户读写权限
grant select,insert,update,delete ON  ALL TABLES IN SCHEMA public to bd_test; -- 把当前库所有表查询权限赋给用户
GRANT SELECT ON ALL TABLES IN SCHEMA public TO ODPS_ETL; -- 把当前库以后新建的表查询权限赋给用户
alter default privileges in schema public grant select on tables to ODPS_ETL; -- 更改复制标识包含更新和删除之前值
ALTER TABLE test0425 REPLICA IDENTITY FULL; -- 查看复制标识 select relreplident from pg_class where relname='test0425'; -- 查看solt使用情况
SELECT * FROM pg_replication_slots; -- 删除solt
SELECT pg_drop_replication_slot('zd_org_goods_solt'); -- 查询用户当前连接数 select usename, count(*) from pg_stat_activity group by usename order by count(*) desc; -- 设置用户最大连接数
alter role odps_etl connection limit 200;

5，下面开始上代码：

maven依赖

        <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.13.0</version> </dependency> <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-scala --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.11</artifactId> <version>1.13.0</version> </dependency> <dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>flink-connector-postgres-cdc</artifactId> <version>1.1.0</version> </dependency>

java代码

package flinkTest.connect; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.table.api.EnvironmentSettings; import org.apache.flink.table.api.TableResult; import org.apache.flink.table.api.bridge.java.StreamTableEnvironment; public class PgsqlToMysqlTest { public static void main(String[] args) { //设置flink表环境变量 EnvironmentSettings fsSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .inStreamingMode()
                .build(); //获取flink流环境变量 StreamExecutionEnvironment exeEnv = StreamExecutionEnvironment.getExecutionEnvironment();
        exeEnv.setParallelism(1); //表执行环境 StreamTableEnvironment tableEnv = StreamTableEnvironment.create(exeEnv, fsSettings); //拼接souceDLL String sourceDDL =
                "CREATE TABLE pgsql_source (\n" +
                        " id int,\n" +
                        " name STRING,\n" +
                        " py_code STRING,\n" +
                        " seq_no int,\n" +
                        " description STRING\n" +
                        ") WITH (\n" +
                        " 'connector' = 'postgres-cdc',\n" +
                        " 'hostname' = '***',\n" +
                        " 'port' = '5432',\n" +
                        " 'username' = 'bd_test',\n" +
                        " 'password' = '***',\n" +
                        " 'database-name' = 'bd_test',\n" +
                        " 'schema-name' = 'public',\n" +
                        " 'debezium.snapshot.mode' = 'never',\n" +
                        " 'decoding.plugin.name' = 'pgoutput',\n" +
                        " 'debezium.slot.name' = 'test',\n" +
                        " 'table-name' = 'test'\n" +
                        ")";

        String sinkDDL =
                "CREATE TABLE mysql_sink (\n" +
                        " id int,\n" +
                        " name STRING,\n" +
                        " py_code STRING,\n" +
                        " seq_no int,\n" +
                        " description STRING,\n" +
                        " PRIMARY KEY (id) NOT ENFORCED\n" +
                        ") WITH (\n" +
                        " 'connector' = 'jdbc',\n" +
                        " 'url' = 'jdbc:mysql://ip:3306/test_db?rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8',\n" +
                        " 'username' = 'bd_test',\n" +
                        " 'password' = '***',\n" +
                        " 'table-name' = 'test'\n" +
                        ")";

        String transformSQL =
                "INSERT INTO mysql_sink " +
                        "SELECT id,name,py_code,seq_no,description " +
                        "FROM pgsql_source"; //执行source表ddl  tableEnv.executeSql(sourceDDL); //执行sink表ddl  tableEnv.executeSql(sinkDDL); //执行逻辑sql语句 TableResult tableResult = tableEnv.executeSql(transformSQL); //控制塔输出 // tableResult.print();  }
}

表机构奉上：

-- pgsql表结构 CREATE TABLE "public"."test" (
  "id" int4 NOT NULL,
  "name" varchar(50) COLLATE "pg_catalog"."default" NOT NULL,
  "py_code" varchar(50) COLLATE "pg_catalog"."default",
  "seq_no" int4 NOT NULL,
  "description" varchar(200) COLLATE "pg_catalog"."default", CONSTRAINT "pk_zd_business_type" PRIMARY KEY ("id")
)
; -- mysql表结构 CREATE TABLE `test` (
  `id` int(11) NOT NULL DEFAULT '0' COMMENT 'ID',
  `name` varchar(50) DEFAULT NULL COMMENT '名称',
  `py_code` varchar(50) DEFAULT NULL COMMENT '助记码',
  `seq_no` int(11) DEFAULT NULL COMMENT '排序',
  `description` varchar(200) DEFAULT NULL COMMENT '备注', PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

6，下面就可以进行操作原表，然后增删改操作

WITH参数

<caption> </caption> <colgroup> </colgroup>

参数	说明	是否必填	数据类型	备注
connector	源表类型	是	STRING	固定值为postgres-cdc。
hostname	Postgres数据库的IP地址或者Hostname。	是	STRING	无
username	Postgres数据库服务的用户名。	是	STRING	无
password	Postgres数据库服务的密码	是	STRING	无
database-name	数据库名称	是	STRING	数据库名称支持正则表达式以读取多个数据库的数据。
schema-name	Postgres Schema名称	是	STRING	Schema名称支持正则表达式以读取多个Schema的数据。
table-name	Postgres表名	是	STRING	表名支持正则表达式去读取多个表的数据。
port	Postgres数据库服务的端口号	否	INTEGER	默认值为5432。
decoding.plugin.name	Postgres Logical Decoding插件名称	否	STRING	根据Postgres服务上安装的插件确定。支持的插件列表如下： decoderbufs（默认值） wal2json wal2json_rds wal2json_streaming wal2json_rds_streaming pgoutput 说明如果您使用的是阿里云RDS PostgreSQL，你需要开启逻辑解码（wal2json）功能，详情请参见逻辑解码（wal2json）。
debezium.*	Debezium属性参数	否	STRING	更细粒度控制Debezium客户端的行为。例如'debezium.snapshot.mode' = 'never'，详情请参见配置属性。说明建议每个表都设置debezium.slot.name参数，以避免出现PSQLException: ERROR: replication slot "debezium" is active for PID 974报错。

类型映射

Postgres CDC和Flink字段类型对应关系如下。

全部评论

推荐最新楼层

12-16 15:59

上海交通大学产品经理

同事被裁员，会轮到我吗

学弟工作没几年被裁员，同级的学妹来问我，怎么才能避免被裁员？公司裁员一般有两大原因：1）业务调整：比如某些业务决定收缩，相关资源要减少投入，导致相关部门被关停或者合并；2）组织文化：比如某些公司为了保持组织活力，推行狼性文化，末位淘汰，导致部分人员被优化。公司裁员前一般会有迹象，比如开始严格出勤打卡，开始严格出差申请，开始减少下午茶员工团建；公司招聘冻结，部门被合并，项目减少，自己没项目一直在等。如果有这些迹象，我们就要开始未雨绸缪。怎么应对？短期来看，如果是业务调整，要及时利用自己人际网络看看其他部门，业务线有没有招聘职位；除了内部看，外部也要同时启动工作机会寻找。对于组织文化绩效原因被离职...

职场成长不EMO 当你面对裁员会如何？

点赞评论收藏

分享

12-16 22:17

华为_系统工程师

面试真题 | 睿联[20241216]

一面，技术面，视频面开摄像头。 @[toc] 1. 自我介绍。 2. 系统调用的流程。 系统调用的流程 在嵌入式系统中，系统调用是用户态程序与内核态程序进行交互的一种机制。系统调用允许用户态程序请求内核提供的服务，如文件操作、进程控制、内存管理等。以下是系统调用的基本流程： 一、系统调用的基本流程 用户态程序发起系统调用： 用户态程序通过特定的接口（如C库函数）发起系统调用请求。 这些接口函数内部会准备好系统调用所需的参数，并触发系统调用。 陷入内核态： 当用户态程序触发系统调用时，CPU会从用户态切换到内核态。 这一切换通常通过中断或异常机制实现，具体取决于操作系统的实现。 ...

ARM/Linux嵌入式...

点赞评论收藏

分享

11-21 14:22

门头沟学院硬件开发

还有没有公司捞一捞啊😭想去干硬件开发

青玉横塘路：这比较难吧

点赞评论收藏

分享

12-15 12:57

哈尔滨理工大学运营

苦果亦是果！

我曾经几度怀疑自己是否真的写的来这些题，我学着室友，报名了许多关于c++的考试，编程的考试，甚至是蓝桥杯...我第一次参加考试时候，发现我竟写的来一些，到头来分数居然还比我室友的高，室友说我太卷了，他们何曾知晓，我本来就愚钝，面对编程这方便更是只想逃避，我一次次的杀死犹豫不决的自己，又重获新生，我在每个题之间深思熟虑，我不知道我的努力是否有用，可是是事实告诉我，的确有用，哪怕这是我每日每夜苦练出来的结果，可是苦果亦是果！！！！没什么好害怕的，勤能补拙，相信自己，多加练习就一定能度过难关，现在的这些题目已经逐渐变得复杂，我所花费的花间就越来越多，别人做一两个小时，那我可能做5，6个小时甚至一天，...

点赞评论收藏

分享

评论

1

收藏

全站热榜

正在热议

# 秋招感动瞬间 #

3389次浏览 54人参与

# 你都收到了哪些公司的感谢信？ #

3790865次浏览 32699人参与

# 被同事甩锅了怎么办 #

10612次浏览 74人参与

# 职场吐槽大会 #

99765次浏览 808人参与

# 上班到公司第一件事做什么？ #

20210次浏览 214人参与

# 哪个瞬间让你对大厂祛魅了？ #

162294次浏览 1003人参与

# 打杂的实习你会去吗？ #

91013次浏览 815人参与

# 如何一边实习一边秋招 #

1056822次浏览 13160人参与

# 工作压力大怎么缓解 #

41194次浏览 707人参与

# 软件开发2024笔面经 #

2380670次浏览 48645人参与

# 通信硬件知识分享 #

2446次浏览 41人参与

# 小米求职进展汇总 #

610157次浏览 4717人参与

# 想实习转正，又想准备秋招，我该怎么办 #

518789次浏览 5213人参与

# 实习与准备秋招该如何平衡 #

762685次浏览 8791人参与

# 字节跳动工作体验 #

247490次浏览 3248人参与

# 毕业后不工作的日子里我在做什么 #

126788次浏览 1151人参与

# 如何判断面试是否凉了 #

2658615次浏览 31765人参与

# 选择和努力，哪个更重要？ #

27173次浏览 290人参与

# 测测你的职业性格 #

16352次浏览 210人参与

# 今年形式下双非本找得到工作吗 #

63043次浏览 567人参与

牛客网
牛客企业服务