牛客图书馆 > 读书笔记
  • Flink 源码阅读笔记(11)- Checkpoint 机制和状态恢复

    在上一篇文章中,我们对 Flink 状态管理相关的代码逻辑进行了分析,但为了实现任务的故障恢复以及数据一致性的效果,还需要借助于检查点(Checkpoint)机制。 简单地说,Checkpoint 是一种分布式快照:在某一时刻,对一个 Flink 作业所有的 ...
    牛客大数据入门菜鸡 编辑于 2020-12-09 15:36:04
  • Flink 源码阅读笔记(1)- StreamGraph 的生成

    在编写 Flink 的程序的时候,核心的要点是构造出数据处理的拓扑结构,即任务执行逻辑的 DAG。我们先来看一下 Flink 任务的拓扑在逻辑上是怎么保存的。 StreamExecutionEnvironmentStreamExecutionEnvironme...
    牛客大数据入门菜鸡 编辑于 2020-11-25 15:52:47
  • Flink 源码阅读笔记(6)- 计算资源管理

    在 Flink 中,计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 Task Slot 的基本概念我们在前面的文章中了解了 Flink 集群的启动流程。在 Flink 集群中,每个 TaskManager...
    牛客大数据入门菜鸡 编辑于 2020-12-02 16:17:11
  • Flink 源码阅读笔记(13)- 双流操作的实现

    在使用 Flink 进行实时数据处理时,一个常用的场景是对两个流的数据进行关联。这篇文章中我们将对双流操作的底层实现机制进行分析。 Window Join and CoGroup Window Join 操作,顾名思义,是基于时间窗口对两个流进行...
    牛客大数据入门菜鸡 编辑于 2020-12-15 14:56:36
  • Java分布式

    分布式理论 问:分布式有哪些理论? CAP 、BASE。分布式 CAP 理论,任何一个分布式系统都无法同时满足 Consistency(一致性)、Availability(可用性)、Partition tolerance(分区容错性) 这三...
    牛客大数据入门菜鸡 编辑于 2020-12-27 18:23:31
  • Flink 源码阅读笔记(3)- ExecutionGraph 的生成

    我们前面已经分析过 StreamGraph, JobGraph 的生成过程,这两个执行图都是在 client 端生成的。接下来我们将把目光头投向 Flink Job 运行时调度层核心的执行图 - ExecutionGraph。 和 StreamGraph 以及...
    牛客大数据入门菜鸡 编辑于 2020-11-27 15:47:34
  • Flink 源码阅读笔记(4)- RPC

    作为一个分布式系统,Flink 内部不同组件之间通信依赖于 RPC 机制。这篇文章将对 Flink 的 RPC 框架加以分析。 例子先来看一个简单的例子,了解 Flink 内部的 RPC 框架是如何使用的。 public class RpcTest { ...
    牛客大数据入门菜鸡 编辑于 2020-11-30 15:00:39
  • Spark学习之路 (九)SparkCore的调优之数据倾斜调优

    数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象绝大多数task执行...
    牛客大数据入门菜鸡 编辑于 2020-11-27 16:21:20
  • Spark学习之路 (十)SparkCore的调优之Shuffle调优

    一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素...
    牛客大数据入门菜鸡 编辑于 2020-11-27 16:28:18
  • Spark学习之路 (十一)SparkCore的调优之Spark内存模型

    一、概述Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这...
    牛客大数据入门菜鸡 编辑于 2020-11-27 16:37:52