资深大数据专家/一线架构师20000小时实际工作经验总结
前言
相比以BAT为引领的互联网公司的天生“数质”(业务高度数字化,技术更具创新性和开放性),大多数传统集团企业经过之前ERP时代积累了海量的业务数据。但是由于业务的复杂性与新老技术升级变革的压力,面对汹涌而来的大数据浪潮,这些企业却依旧停留在探索技术如何稳步更替升级、分散在不同部门的数据如何更有效地集中统一、数据本身以及数据技术如何有效形成企业级治理体系等一系列“知易行难”的问题当中。
近年来,大数据这个概念越来越火爆,特别是在国家层面,大数据被提升到了国家战略的高度。在这样的背景下,很多传统企业开始涉足大数据领域并研发自己的大数据技术平台。在这股技术升级与转型的浪潮中,传统领域的程序员纷纷转型投向大数据的怀抱。目前大数据技术开源领域以Hadoop生态构建的技术体系为主。现在市面上有很多与Hadoop体系相关的技术书籍,Hadoop、 Spark 这类火爆的技术已经有大量优秀的专业书籍进行讲解。但我发现这类书籍多是以纵向的视角去讲解某-类具体的技术,而大数据领域涉及的知识繁多,在构建大数据平台的过程中我们不仅需要精通单个技术组件的知识,还需要拥有横向整合拉通Hadoop体系技术栈的能力。
思者常新,厚积薄发
从横向视角出发,拉通Hadoop体系技术栈,手把手教你快速构建-一个真实可用、安全可靠的企业级大数据平台
正文
第一部分描述了企业级大数据平台的需求和能力。
第1章阐述企业级大数据平台的重要性,并解释了为什么需要构建一个统一的企业级大数据平台。接着介绍作为一个企业级大数据平台应当具备的能力,并解释其原因。
第2章介绍通过Hadoop生态体系去构建一个企业级大数据平台可以使用的技术栈,如HDFS、HBase、 Spark等,并一一介绍 了它们的核心概念。
第二部分着重讲述了如何去搭建并配置一个大数据平台,以及如何构建非常重要的平台安全方案。
第3章介绍集群管理工具Ambari,并站在集群服务器的角度分类解释如何去设计一个Hadoop集群,详细描述了如何使用Ambari来安装、管理和监控一 个Hadoop集群。
第4章介绍企 业级大数据平台中非常重要的安全部分。首先阐述了企业级大数据平台面临的一些安全隐患,接着展示了一套初级解决方案并介绍了如何使用Knox和Ranger解决访问控制和数据授权与管理的问题。
第5章着重介绍 Hadoop服务的安全方案,并说明如何通过Kerberos协议等一系列措施来保障Hadoop集群的安全。
第三部分以实战的形式讲解如何以Java编码的方式实现平台的基础管理功能,以提升其易用性与可用性。
第6章阐述大数据平台在 易用性上的一些遗留问题,接着介绍如何通过CAS实现平台的单点登录功能,最后描述如何使用Java程序实现统一的用户 管理服务。
第7章简单阐述服务化的重要性以及如何将大数据平台管理端的功能封装成RESTful服务。首先介绍了如何使用Spring Boot快速搭建一套RESTfu服务的程序框架,接着详细描述如何实现Kerberos用户查询、Hive 数据仓库查询和元数据查询等一系列RESTful服务。
第8章介绍 如何使用Java程序实现Spark的任务提交与任务调度功能。首先着重介绍使用Java程序实现Spark任务提交到YARN的三种方式,接着描述如何通过Quartz实现任务调度功能。