大数据开发框架分类
大数据开发系列知识整合
1.语言
Java、python、Scala基础,能达到使用Scala进行Spark编程。
2.框架(frame)
日志收集工具:Flume、Logstash、Filebeat
分布式文件存储系统:Hadoop HDFS、Tachyon、KFS
数据库系统:Mongodb(文档类型的NoSQL数据库)、HBase(列族类型的NoSQL数据库)、Redis(键值对类型的NoSQL数据库)、Neo4j(图类型的NoSQL数据库)
分布式计算框架:
- 批处理框架:Hadoop MapReduce
- 流处理框架:Storm
- 混合处理框架:Spark、Flink
查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix
集群资源管理器:Hadoop YARN
分布式协调服务:Zookeeper
数据迁移工具:Sqoop
任务调度工具:Azkaban、Oozie
集群部署、管理和监控工具:Ambari、Cloudera Manager
自动化构建工具:Maven