大数据总结【第一章:大数据概述】
简答题
什么是大数据
大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取,管理和处理的 数据。
大数据特点4V
数据量大(Volume),数据类型繁多(Variety),处理速度快(Velocity).价值密度低(Value)
大数据对思维方式的重要影响
大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
大数据的关键技术
批处理计算,流计算,图计算,查询分析计算
大数据计算模式
(1)、批处理计算:批处理计算主要解决针对大规模数据的批量处理,也就是我们日常数据分析工作中非常常见的一类数据处理需求。
(2)、流计算:流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。
(3)、图计算:在大数据时代,许多大数据都是以大规模图或网络的形式呈现的,如社交网络、传染病传播途径、交通事故对路网的影响等,此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。
(4)、查询分析:针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能更好地满足企业经营管理需求。
详细阐述大数据,云计算和物联网三者之间的区别和联系
第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,海量数据中发现价值,服务于生产和生活:云计算本质上旨在整合和优化各种IT资源,并通过向络以服务的方式廉价地提供给用户:物联网的发展目标是实现物相连,应用创新是物联网发展的核心。
第二,大数据、云计算和物联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数拟存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式井行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之。大数据为云计算提供了“用武之地",没有大数据这个“练兵场”。云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术。实现物联阿大数据的存储、分析和处理。.
填空题
答案隐藏 复制查看
1、 人类自古以来在科学研究上先后历经了___________、___________、___________、__________。
【解析:实验、理论、计算、和数据四种范式。】
2、大数据的四个特点:___________、___________、___________、__________。
【解析:数据量大、数据类型繁多、处理速度快、价值密度低。】
3、从数据分析全流程的角度,大数据技术主要包括__________、_________、_________、_________。
【解析:数据采集与预处理、数据存储和管理、数据处理和分析、数据安全和隐私保护。】
4、大数据的特征(4V):_________、_________、_________、_________。
【解析:Volume,数据量大, Variety,数据类型多,Velocity,处理速度快,Value,价值密度低】
5、Hadoop集群可以运行在_________、_________、_________3个模式。
【解析:单机模式(或本地模式或非分布式模式)、伪分布式模式、分布式模式】
单选题
答案隐藏 复制查看
1、当前大数据技术的基础是由(C)首先提出的。
A:微软 B:百度 C:谷歌 D:阿里巴巴
2、 大数据的起源是(C )。
A:金融 B:电信 C:互联网 D:公共管理
3、大数据的最显著特征是( A)。
A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高
4、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。
A:在数据基础上倾向于全体数据而不是抽样数据
B:在分析方法上更注重相关分析而不是因果分析
C:在分析效果上更追究效率而不是绝对精确
D:在数据规模上强调相对数据而不是绝对数据
5、 下列对大数据特点的说法中,错误的是(D )。
A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高
6、 下列关于网络用户行为的说法中,错误的是( C)。
A:网络公司能够捕捉到用户在其网站上的所有行为
B:用户离散的交互痕迹能够为企业提升服务质量提供参考
C:数字轨迹用完即自动删除
D:用户的隐私安全很难得以规范保护
7、 下列关于计算机存储容量单位的说法中,错误的是( C)。
A:1KB<1MB<1GB B:基本单位是字节(Byte)
C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符,
8、 下列关于大数据的分析理念的说法中,错误的是(D )。
A:在数据基础上倾向于全体数据而不是抽样数据
B:在分析方法上更注重相关分析而不是因果分析
C:在分析效果上更追究效率而不是绝对精确
D:在数据规模上强调相对数据而不是绝对数据
9、 大数据时代,数据使用的关键是( D )。
A:数据收集 B:数据存储 C:数据分析 D:数据再利用
10、第三次信息化浪潮的标志是:(B)
A.虚拟现实技术的普及 B.云计算、大数据、物联网技术的普及
C.个人电脑的普及 D.互联网的普及
11、以下哪个不是大数据时代新兴的技术:(D)
A.Hadoop B.HBase C.Spark D.MySQL
12、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:(A)
A.S4 B.Impala C.GraphX D.Hive
13、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:(A)
A.Pregel B.Cassandra C.Storm D.Flume
14、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:(A)
A.Dremel B.HDFS C.S4 D.MapReduce
15、以下哪一项属于非结构化数据。(C)
A. 企业ERP数据 B. 财务系统数据
C. 视频监控数据 D. 日志数据
16、以下名词解释不正确的是(C)
A.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
C.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
D.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
17、下列说法错误的是(D)
A.大数据的关键技术有批处理计算、流计算、图计算等
B.HBase一般采用HDFS作为其底层数据存储
C.Hive可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储
D.HDFS在块的大小的设计上明显要小于普通文件系统。
磁盘文件块大小一般为512字节,HDFS一般为64M或128M
18、下列说法错误的是(D)
A.hadoop的核心是分布式文件系统HDFS和MapReduce
B.HDFS是谷歌文件系统GFS的开源实现
C.MapReduce是针对谷歌MapReduce的开源实现
D.HBase是一个基于Hadoop的数据仓库工具