首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
Spark学习之路 (十六)SparkCore的源码解读(二)spark-submit提交脚本
一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 二、源码解读2.1 spark-submit # -z...
牛客大数据入门菜鸡
编辑于 2020-11-27 17:07:49
Spark学习之路 (十七)Spark分区
一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:21:06
Spark学习之路 (十八)SparkSQL简单使用
一、SparkSQL的进化之路1.0以前: Shark1.1.x开始: SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:28:22
Spark学习之路 (十九)SparkSQL的自定义函数UDF
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Func...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:30:11
Spark学习之路 (二十)SparkSQL的元数据
一、概述SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:31:19
Spark学习之路 (二十一)Dataset实现原理分析-Dataframe原理介绍和Dataset的对比
Dataframe原理要点 Spark SQL引入了一个名为DataFrame的表格函数数据抽象。设计它的目的在于:简化Spark应用程序的开发。这样就可以在Spark基础架构上处理大量结构化表格数据。 DataFrame是一种数据抽象或特定于域的语言(...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:39:36
Spark学习之路 (二十三)SparkStreaming的官方文档
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程2.1 图解说明 2.2 文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个App...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:45:13
Flink的分布式快照(检查点算法)原理--基于Chandy-Lamport算法
检查点的两种实现:(1)检查点算法的简单实现–暂停应用,保存状态到检查点,在重新恢复应用(2)Flink基于检查点算法的优化实现–基于Chandy-Lamport算法的分布式快照,将检查点的保存和数据分开处理,不需要暂停整个应用,这里引入状态后端的概念。以下介...
牛客大数据入门菜鸡
编辑于 2020-11-18 16:28:17
KAFKA原理
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处...
牛客大数据入门菜鸡
编辑于 2020-11-09 16:11:50
Flink 源码阅读笔记(14)- Async I/O 的实现
在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据。由于外部系统的响应时间和网络延迟可能会很高,如果采用同步调用的方式,那么外部调用的高延迟势必会影响到系统的...
牛客大数据入门菜鸡
编辑于 2020-12-16 14:24:11
首页
上一页
2
3
4
5
6
7
8
9
下一页
末页
热门图书
未来简史
理解漫画
Head First 设计模式(中文版)
Advanced R
Time, Love, Memory
Java多线程编程实战指南(核心篇)
查看全部