简历还在外卖和商城？来看看基于Flink的异构数据源流转系统

前言

作为一个年迈的夹娃练习生，每次到了春招秋招面试实习生时都能看到一批简历，十个简历里得有七八个是写商城或者外卖项目。

不由得想到了我大四那会，由于没有啥项目经验，又想借一个质量高点的项目通过简历初筛，就找到了谷粒商城，面对408集的视频教程实在是难以坚持到终点。。。并且很多时候都是因为项目里有庞大的增删改查而感到厌烦。(504w的播放量可不得人手一个嘛.....) 如果不想再把外卖商城项目写在简历上，不妨来看看基于Flink的异构数据源流转系统。

【DatalinkX】基于Flink的异构数据源流转系统

Gitee仓库地址: https://gitee.com/atuptown/datalinkx

DatalinkX是一个基于Flink大数据引擎的异构数据源同步系统，本质上就是通过页面配置的方式将数据从从来源数据源将数据同步到目标数据源。

既然是异构数据源流转系统，肯定既可以是相同类型的数据源之间流转，也可以是不同的数据源之间流转，有些年轻的朋友可能会疑惑，为什么要有那么多数据源呢？

MySQL	Oracle不开源
PostgreSQL	MySQL功能不够多
SQLite	你可以把我纳入到任何地方
DM达梦	国货之光，国产数据库！
MongoDB	为什么要用join，文档不香吗？
Redis	为什么要面向文档？动不动内存多快？
ElasticSearch	你们全文检索都不行
Clickhouse	BI场景下唯我独尊
HDFS	大数据时代，在座的都是弟弟
Memcached	为什么我们要用磁盘？
Bigtable	MongoDB对Web扩展性不行
Hbase	Bigtable不开源
Kafka	流式数据是未来
Plusar	懂不懂存算分离的魅力？
...	...

随着大数据时代的发展，业务场景的日益复杂，稍具规模的企业内部都会使用各种各样的数据源，不同的数据源类型在不同的场景下能够充分发挥各自的优势，更好的辅助于业务。

而业务数据存储在不同DB中，就需要一个异构数据源之间的数据流转工具来流转和管理数据。

亦或是不同部门之间做数据同步，比如做爬虫的同事把数据爬到了MySQLa，而后端同事的服务使用的都是MySQLb，你需要把爬虫同事的数据拿来完成业务开发。

手动同步一次可以，也不能天天手动同步吧，那么这时候如果你有DatalinkX，你只需配置好两个数据源的连接信息和同步任务，就会按照你定时的时间将MySQLa中的数据一条不漏的同步到MySQLb中。

技术架构

Spring Boot	2.4.3	项目脚手架
SpringData JPA	2.4.3	持久层框架
MySQL	8.0	DB数据库
Redis	5.0	RedisStream消息队列
ChunJun(原FlinkX)	1.10_release	袋鼠云开源数据同步框架
Flink	1.10.3	分布式大数据计算引擎
Xxl-job	2.3.0	分布式调度框架
Retrofit2	2.9.0	RPC通信服务
Jackson	2.11.4	反序列化框架
Maven	3.6.X	Java包管理
Vue.js	2.X	前端框架
AntDesignUI	3.0.4	前端UI
Docker		容器化部署

SpringBoot没啥好说的，Java后端的看家技能，基础脚手架依赖。版本比较低是因为懒得换了.....
为啥用JPA不用Mybatis是因为毕业之后一直在用JPA快忘了Mybatis咋用了，为了用的顺手就用JPA了，有不喜欢的同学直接用Mybatis、Mybtais-plus都可以，这个项目的重点不是DB层的增删改查
FlinkX低版本跟高版本中我们需要的数据流转模块的差异不是很大，1.10_release我最熟悉直接用，当时咔咔调试源码
Retrofit2基于Http的优雅RPC通信服务，项目里基于这个封装了一层通用clinet
Xxl-job和Jackson没啥好说的，优秀的开源组件