大数据开发课程学习
14大行业16个“大厂”级项目,400+业务指标,200+技术点。
SQL基础会涉及到数据库的操作、Kettle数据迁移和Kettle Job的开发。
掌握Hadoop技术框架,分布式存储与计算,Hive计算引擎的使用和调优,离线数仓开发,数据采集与历史数据快照:拉链表的操作。
离线数仓解决方案
基于国内大型新零售巨头开发的大数据平台,构建离线数仓包括销售、会员、商品等主题,真实的业务场景。项目采用 Hive+Presto架构构建高性能的离线处理,包括 CM自动部署与配置、数据仓库建模、数仓架构分层、Hive的使用和调优、Presto使用与调优、拉链表历史快照、更新数据的增量计算、Python-ETL自研系统、主流ETL开源系统、Shel脚本、Python脚本、Dolphinscheduler调度、全量增量完整流程实现等。
总体技术架构
#我的成功项目解析##互联网没坑了,还能去哪里?#