老欧讲职场 - 个人主页动态

02-06 21:46

原则四：尽量避免使用shuffle类算子如果有可能的话，要尽量避免使用shuffle类算子。因为Spark作业运行过程中，最消耗性能的地方就是shuffle过程。shuffle过程，简单来说，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合或join等操作。比如reduceByKey、join等算子，都会触发shuffle操作。shuffle过程中，各个节点上的相同key都会先写入本地磁盘文件中，然后其他节点需要通过网络传输拉取各个节点上的磁盘文件中的相同key。而且相同key都拉取到同一个节点进行聚合操作时，还有可能会因为一个节点上处理的key过多，导致内存不够存放，...

大数据欧老师 - 面试真...

0 点赞评论收藏

02-05 23:58

字节跳动_大数据工程师

大数据工程师面试题 - Spark 基础调优（二）

原则三：对多次使用的RDD进行持久化当你在Spark代码中多次对一个RDD做了算子操作后，恭喜，你已经实现Spark作业第一步的优化了，也就是尽可能复用RDD。此时就该在这个基础之上，进行第二步优化了，也就是要保证对一个RDD执行多次算子操作时，这个RDD本身仅仅被计算一次。Spark中对于一个RDD执行多次算子的默认原理是这样的：每次你对一个RDD执行一个算子操作时，都会重新从源头处计算一遍，计算出那个RDD来，然后再对这个RDD执行你的算子操作。这种方式的性能是很差的。因此对于这种情况，我们的建议是：对多次使用的RDD进行持久化。此时Spark就会根据你的持久化策略，将RDD中的数据保存到...

查看3道真题和解析大数据欧老师 - 面试真...

0 点赞评论收藏

02-03 20:51

字节跳动_大数据工程师

大数据工程师面试题 - Spark 基础调优（一）

原则一：避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也就是“RDD的血缘关系链”。我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。一个简单的例子：错误的做法： val rdd1 = sc.textFile("hdf...

大数据欧老师 - 面试真...

0 点赞评论收藏

01-27 13:37

字节跳动_大数据工程师

大数据工程师面试 - JVM GC

CMS 垃圾收集器是什么？CMS（Concurrent Mark-Sweep，即并发标记清扫）是一种用于Java的垃圾收集技术，主要处理堆内存中老年代的垃圾回收。CMS垃圾收集器的主要特性1.并发性：CMS收集器的目标是避免冻结所有的应用线程，也就是"Stop-The-World"的操作。为了实现这一目标，CMS在标记和清除阶段的大部分时间与应用线程并发运行。2.四阶段工作过程：CMS收集器的工作流程包括以下四个阶段：•初始标记（Initial Mark)：这个阶段需要暂停所有的应用线程，以标记所有从GC Roots开始即能直接关联到的对象。•并发标记（Concurrent...

查看3道真题和解析大数据欧老师 - 面试真...

0 点赞评论收藏

01-26 21:52

字节跳动_大数据工程师

大数据工程师面试-Druid 和 Clickhouse

在线分析处理(OLAP)在大数据环境中极为重要，它可以帮助我们快速查询和执行多维分析。今天，我们将讨论两种在OLAP场景中得到广泛应用的大数据技术—Druid和ClickHouse，并进行比较。Druid介绍Druid是一个高性能的、实时的，面向列的分布式数据存储系统。它被广泛应用于因特网公司，用于用户行为分析，时序数据分析等场景。Druid的一些特性包括：•实时插入和实时查询： Druid可以实时地（毫秒级别）摄入和查询数据。•高并发性能 ：匠心设计的索引结构使得Druid在高并发下仍能保持秒级响应。•水平扩展 ：可以通过增加Druid服务节点来扩展存储和查询能力。尽管Druid在处理实时O...

查看3道真题和解析大数据欧老师 - 面试真... 数据人的面试交流地

0 点赞评论收藏

01-25 23:45

字节跳动_大数据工程师

大数据工程师面试-Flink窗口运算及其应用场景深入理解

在处理流数据时，窗口运算是一项关键技能。特别是在Flink这种实时计算平台上，理解和合理使用窗口运算对于数据处理的效率和精准度至关重要。1. Flink窗口运算的理解Flink提供了丰富的窗口运算支持，包括滚动窗口、滑动窗口、会话窗口等多种窗口类型，适应各种各样的需求场景。•滚动窗口(Tumbling Windows)：窗口之间没有重叠和间隙，通常用于固定时间间隔的数据统计和分析。•滑动窗口(Sliding Windows)：窗口之间有重叠，某个数据可能属于多个窗口，适用于需要连续观测变化的场景。•会话窗口(Session Windows)：窗口之间有间隙，针对的是数据的活动会话或者事件，适用...

大数据欧老师 - 面试真...

0 点赞评论收藏

01-22 22:57

字节跳动_大数据工程师

大数据工程师面试 Flink 知识点 - 时间语义

1. Flink时间语义的理解Flink提供了三种时间语义，以满足不同计算场景的需求：处理时间，事件时间和注入时间。•处理时间(Processing Time)：一种直观的时间语义，表示数据进入算子并开始处理的实际时间点。•事件时间(Event Time)：表示事件实际发生的时间，通常在消息的时间戳字段中找到。由于可能会有数据乱序的问题，但它能保证精确度高的计算场景。•注入时间(Ingestion Time)：介于处理时间和事件时间之间的折中选择，代表数据进入Flink处理系统的时间。这方面的细节问题较少被询问。2. 理解时间语义的应用场景和优势每种时间语义都有其独特的使用场景和优势。•处理时...

大数据欧老师 - 面试真...

0 点赞评论收藏

字节跳动_大数据工程师

 Flink面试知识点：JobManager 和 TaskManager，不知道现在面试 Flink 岗位的小伙伴多吗？？

@老欧讲职场： Flink面试知识点：JobManager 和 Task

0 点赞评论收藏

01-21 10:29

已编辑

字节跳动_大数据工程师

Flink面试知识点：JobManager 和 Task

1. Flink 的核心组件：JobManager 和 TaskManager在 Apache Flink 中，JobManager 和 TaskManager 是分布式执行的核心组件，负责协调和执行应用程序。1.1 JobManagerJobManager 是 Flink 集群的大脑，它主要负责三个方面的工作：•作业调度： 接收用户提交的作业，并将这些作业拆分成不同的任务。•资源管理： 与 Flink 的资源管理器（如 YARN 或 Mesos）协作，为作业分配必要的资源。•容错与状态管理： 控制作业的执行，包括容错机制。负责设置检查点（checkpoints）来保存作业的状态，以便在失败时...

大数据欧老师 - 面试真...

0 点赞评论收藏

01-20 15:55

字节跳动_大数据工程师

实时大数据面试题 - 流处理、批处理和微批处理

1. 数据处理模型：流处理、批处理和微批处理我们首先来认识一些基本的数据处理模型。在大数据世界中，你会遇到流处理、批处理和微批处理这三种模型。流处理是一种实时的数据处理方式，数据一生成就立即被处理，无需等待。其连续且高效的特性使得它适用于需要实时分析结果的场景，例如实时股票市场分析或网络监控。流处理的代表有 Apache Flink 和 Apache Storm。相比之下，批处理增加了一个数据积累阶段，仅在数据达到一定量时才进行处理。这种模式适用于不需要实时响应的场景，比如零售业的日销售数据分析。Hadoop MapReduce 则在批处理领域卓有成效。最后，微批处理作为一种折衷策略，介于流处...

大数据欧老师 - 面试真...

0 点赞评论收藏

01-18 23:46

字节跳动_大数据工程师

大数据开发高频面试题：Spark与MapReduce解析

一、Spark vs MapReduce1.数据处理方式：Spark基于内存处理数据，可以将计算的中间结果保存到内存中反复利用，提高了处理效率。相比之下，MapReduce基于磁盘处理数据，将中间结果保存到磁盘中，这减轻了内存的压力，但 sacrificed the computational performance.2.计算模型：Spark构建了有向无环图（DAG），可以减少数据shuffle和落地磁盘的次数。其DAG计算模型是Spark快于MapReduce的主因。如果计算过程中涉及数据交换，Spark也会把shuffle的数据写入磁盘。3.资源申请方式：Spark采用粗粒度资源申请，在提...

大数据欧老师 - 面试真... 晒一晒我的offer 视觉/交互/设计百问百答

0 点赞评论收藏

2023-12-06 00:01

字节跳动_大数据工程师

从各种地方整理的 Flink 面试题

能否详细描述下Apache Flink的架构组件和其工作原理？Flink的窗口操作有哪些类型，它们之间有什么不同？请举例说明如何定义不同类型的窗口。请解释Flink中窗口函数的作用，并讨论与时间语义相关的问题。请详细介绍Apache Flink中的Watermark（水位线）机制。实现Watermark需要哪个接口？应在哪里定义？其主要作用是什么？能否描述Flink的窗口实现机制是如何工作的？请介绍一下Flink的复杂事件处理（CEP）库，并给出使用场景的例子。请解释Flink的Checkpoint机制，它是如何工作的？Flink的Checkpoint机制是如何在底层实现的？Savepoint...

查看8道真题和解析大数据欧老师 - 面试真... 互联网没坑了，还能去哪里？

0 点赞评论收藏

2023-10-26 23:24

字节跳动_大数据工程师

10.26 大数据工程师 Spark 面试题全集（一）

Spark的任务执行流程Spark的任务执行流程如下：用户编写Spark应用程序，程序中包含RDD的创建、转换和动作等操作。Spark应用程序通过SparkContext连接到集群的主节点，SparkContext是与集群交互的入口点。当SparkContext连接到主节点后，它会向集群管理器（如YARN或Mesos）请求资源，并启动驱动程序进程。驱动程序进程会将应用程序转化为有向无环图（DAG），DAG中的节点表示RDD，边表示RDD之间的依赖关系。驱动程序将DAG提交给集群管理器，集群管理器将任务分发给集群中的工作节点。每个工作节点上的任务执行器会根据任务的依赖关系和数据位置从磁盘或其他节...

大数据欧老师 - 面试真... 晒一晒我的offer 我想象的工作vs实际工作

0 点赞评论收藏

2023-10-25 08:58

0 点赞评论收藏

都是基础知识，大家复习起来吧！https://www.nowcoder.com/discuss/546609706215669760

@SerendipityAl：竞技世界面经分享

0 点赞评论收藏

关注他的用户也关注了：