大数据处理系统:深入浅出Hadoop,让你轻松完成大数据处理任务

前言

毫无疑问,Hadoop已经成为当下大数据处理领域的王者技术。经过开源社区无数贡献毫无疑问,Hadoop已经成为当下大数据处理领域的王者技术。经过开源社区无数贡献理需求的商业机构和科研团体。它的拥趸者中既有Google、Facebook、 Yahoo 这样的知名企业,还有数以万计的中小企业和高校研究团体。

随着宽带网络技术的飞速发展、用户规模的不断扩大和网络应用的日益丰富,网络中时时刻刻都在产生着蕴含丰富价值的流量数据。如果能对这些海量网络流量数据进行准确而高效的分析,将可以极大地挖掘网络资源潜力、优化网络结构和提高用户体验,为网络运营者和应用开发者带来丰厚的回报。而与此诱人机遇同时到来的,还有由于大数据带来的存储与计算挑战。

正文

Hadoop大数据出处理

本书以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。

本书共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。

限于平台篇幅原因,小编只截取了部分内容,有感兴趣的朋友可以帮忙转发文章后,关注私信回复【学习】来获取相关资料

第1章为大数据处理概论,对大数据处理给出了一个多维度定义,梳理了大数据处理平台的基础架构,介绍了完成大数据处理任务要解决的3个关键问题一存储、 计算和容错,并归纳性地总结了Hadoop 技术的关键性思路。

第2章以Hadoop技术的来源,Google的三大关键技术为引子,介绍了Hadoop整体架构、基本原理和发展历程,在此基础上展示了一个使用Hadoop 技术完成大数据处理工作的简明框架,同时简要介绍了目前Hadoop技术在国内知名企业中的应用情况。

第3章深入剖析了MapReduce 计算模式,包括原理和工作机制,介绍了实用性的MapReduce应用开发方法,并结合简单的实例讲解了几类常用的MapReduce设计模式,同时以3个经典算法为例讲解了MapReduce算法的设计精髓,最后给出了一些重要的MapReduce程序优化的方法。

第4章全面讲解了HDFS分布式文件存储系统的工作原理和机制,说明了使用命令行和代码对HDFS文件进行操作的方法,介绍了提高文件访问效率的若干重要优化方法,并梳理了目前解决HDFS中小文件存储和高可用性问题的解决方法。

第5章介绍了可用于快速数据检索的HBase技术,包括核心原理与架构,以及管理HBase中数据的方法,同时从传统关系型数据库使用者的角度讲解了如何在新型列存储数据库上进行设计与开发的方法,并梳理了提高HBase性能的重要方法。

第6章介绍了Hadoop中的高层数据分析工具Hive 和Pig,结合具体实例讲解了这两个工具的使用方法,并从实际应用的角度对具有相似性的两者进行了差异对比,给出了选择建议。

第7章阐述了复杂数据应用环境下的数据整合问题,详细介绍了适用于Hadoop与外部SQL数据整合的工具Sqoop, 以及Hadoop 平台内部的数据整合工具HCatalog。

第8章介绍了集群管理者所关注的管理与维护体系和相关工具,从配置管理、集群监控、故障处理与安全性等角度梳理了目前常用的Hadoop 集群管理工具,并进行了总结与对比。

第9章重点介绍基于MapReduce的数据挖掘技术,包括基本原理和方法、若干经典算法的实例,以及目前已有的基于MapReduce的数据挖掘工具。

第10章介绍了将对未来大数据处理技术产生深远影响的一些新型大数据处理技术,包括Hadoop的下一代计算框架YARN、大数据的实时交互式分析工具Dremel和Impala、大数据的图运算模型和工具Pregel和Hama。

限于平台篇幅原因,同时也为了大家更好的阅读,感兴趣的朋友可以帮忙转发文章后,关注私信回复【学习】来得到获取方式

全部评论

相关推荐

铁锈不腻玩家:下面那个袁先生删了,问他怎么回事,头像都换不明白
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务