首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
已删除
获赞
0
粉丝
0
关注
0
看过 TA
0
IP属地:未知
暂未填写个人简介
私信
关注
拉黑
举报
举报
确定要拉黑已删除吗?
发布(70)
评论
刷题
已删除
关注TA,不错过内容更新
关注
2021-01-27 20:14
Flink可靠性的基石-checkpoint机制详细解析
Checkpoint介绍 checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。 每个需要checkpoint的应用在启动时,Flink的JobManager为其创建一个 CheckpointCoordinator(检查点协调器),CheckpointCoordinator全权负责本应用的快照制作。 1) CheckpointCoordinator...
0
点赞
评论
收藏
分享
2021-01-25 20:21
已编辑
Flink 中极其重要的 Time 与 Window 详细解析(深度好文,建议收藏)
前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔多长时间就划分一个边界,根据数据量就是每来多少条数据划分一个边界,Flink 中就是这么划分边界的,本文会详细讲解。 实时:就是数据发送过来之后立马就进行相关的计算,然后将结果输出。这里的计算有两种: 一种是只有边界内的数据进行计算,这种好理解,比如统计每个用户最近五分钟内浏览的新闻数量,就可以取...
0
点赞
评论
收藏
分享
2021-01-21 21:35
hive窗口函数/分析函数详细剖析
hive窗口函数/分析函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。 窗口函数最重要的关键字是 partition by 和 order by。 具体语法如下:over (partition by xxx order by xxx) sum,avg,min,max 函数 准备数据 建表语句: create table bigd...
0
点赞
评论
收藏
分享
2021-01-18 20:15
Kafka底层原理剖析(近万字建议收藏)
Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 Kafka 适合离线和在线消息,消息保留在磁盘上,并在集群内复制以防止数据丢失。kafka构建在zookeeper同步服务之上。它与 Flink 和 Spark 有非常好的集成,应用于实时流式数据分析。 Kafka特点: 可靠性:具有副本及容错机制。 可扩展性:kafka无需停机即可扩展节点及节点上...
0
点赞
评论
收藏
分享
2021-01-17 12:05
好书推荐--大数据日知录(深入理解大数据的必备书籍)附电子版下载
今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。 这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。像Flink中非常重要的分布式一致性协议,使用的是两阶段提交协议,这本书中就详细介绍了两阶段提交协议的原理,如下为书中截图: 还有像比特币中用来进行交易验证的Merkle树,书中也有详细介绍,Merkle树在亚马逊的Dynamo数据库中也有广泛应用 在Hive中常用 orc 格式 + snappy 压缩是比较常用的存储...
0
点赞
评论
收藏
分享
2021-01-15 20:54
详解HDFS3.x新特性-纠删码
EC介绍 Erasure Coding 简称EC,中文名:纠删码 EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术,原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突(当多个进程同时访问一个磁盘时,可能会出现磁盘冲突),而且在需要对这种数据进行顺序访问的时候可以获得最大程度上的 I/O 并行能...
0
点赞
评论
收藏
分享
2021-01-14 20:09
大厂面试官竟然这么爱问Kafka,一连八个Kafka问题把我问蒙了
本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接开问Kafka,其他问题基本没问。下面来看下面试官的Kafka八连问: (以下答案是参考网上资料整理而成,实际面试时只回答了大约三分之一) 1. 为什么要使用 kafka? 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用...
0
点赞
评论
收藏
分享
2021-01-12 20:16
九个最容易出错的 Hive sql 详解及使用注意事项
阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号:五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。 在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。 正文开始 1. decimal hive 除了支持 int,double,string等常用类型,也支持 decimal 类型,...
0
点赞
评论
收藏
分享
2021-01-11 21:45
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃。 因为本文是纯理论知识,密密麻麻的字,很多人可能看不下去,所以我尽量用最少的字来表达,尽量将晦涩难懂的词语转化为通俗易于理解的词,将文中的重点加粗展示,内容尽...
0
点赞
评论
收藏
分享
2021-01-10 12:16
已编辑
数仓面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据 小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式 直接向表中插入数据 insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的 通过load方式加载数据 load data local inpath '/export/score.csv' overwrite into table A -- 导入文件 l...
0
点赞
评论
收藏
分享
1
2
3
4
5
关注他的用户也关注了:
牛客网
牛客企业服务