2023-07-12 星环科技大数据面经实操

讲一下 JVM 的垃圾回收的相关概念？

Java虚拟机（JVM）的垃圾回收（Garbage Collection，GC）是Java内存管理的一个重要部分，它负责自动化地管理Java程序的内存，通过识别和回收不再使用的对象来释放内存。垃圾回收器在程序运行时进行，尽管开发者无法直接控制其精确的运行时间，但可以通过编写“内存友好”的代码以及调整JVM配置参数来影响其行为。

以下是关于JVM垃圾回收的一些基本概念：

对象的生命周期：Java对象的生命周期开始于创建（当使用new关键字时）并在不再有引用指向它们时结束。如果一个对象不再被引用，那么它就可能被垃圾回收。

堆（Heap）内存：Java对象存储在堆内存中。堆在JVM启动时创建，可以通过JVM参数调整其大小。

垃圾回收算法：垃圾回收器使用特定的算法来确定哪些对象可以被视为"垃圾"并进行回收。常见的垃圾回收算法有标记-清除（Mark-and-Sweep）、标记-压缩（Mark-and-Compact）、复制（Copying）、以及分代回收（Generational Collection）等。

停顿时间（Stop-the-world）：垃圾回收器在运行时，通常会导致Java应用程序的执行暂停，这种现象被称为“停顿时间”。减少停顿时间是垃圾回收器优化的一个重要目标。

分代回收：Java的垃圾回收器通常采用分代回收策略，将堆内存分为新生代（Young Generation）和老年代（Old Generation）。这种策略基于这样一个观察：大多数对象的生命周期都很短。

新生代（Young Generation）：新创建的对象首先放在新生代。新生代通常分为一个Eden区和两个Survivor区（S0和S1）。大部分对象在Eden区被垃圾回收。

老年代（Old Generation）：如果对象在新生代中存活了足够长的时间，它们会被移动到老年代。老年代的空间通常比新生代大，并且其垃圾回收频率较低。

垃圾回收器（GC Collectors）：Java提供了多种垃圾回收器，包括Serial、Parallel、CMS（Concurrent Mark Sweep）、G1（Garbage-First）以及ZGC（Z Garbage Collector）等。每种垃圾回收器都有其特定的使用场景和优劣，选择哪种垃圾回收器取决于具体的应用需求。

JVM 常见调优方法有哪些？

内存分配：扩大JVM堆的大小可以提供更多的空间给对象，减少垃圾回收（GC）的次数。使用-Xms和-Xmx参数可以分别设置堆的初始大小和最大大小。然而，分配过多的内存可能会导致更长的GC停顿时间，并可能影响其他进程的性能。

选择垃圾回收器：根据应用的需求和特性选择合适的垃圾回收器。例如，对于需要低延迟的实时系统，选择并发垃圾回收器（如CMS或G1）可能是个好选择。对于可以容忍更长GC停顿时间的批处理任务，使用并行垃圾回收器（Parallel GC）可能更为合适。

调整新生代和老年代的比例：JVM的堆内存被划分为新生代和老年代，其中新生代通常分为Eden区和两个Survivor区（S0和S1）。这些区域的大小可以通过参数-XX:NewRatio，-XX:SurvivorRatio进行调整。这种调整可以根据应用的对象生命周期进行，以减少GC的次数。

调整线程堆栈大小：使用-Xss参数可以设置每个线程的堆栈大小。如果应用创建了大量的线程，减小线程堆栈大小可能会帮助减少内存消耗。

启用类数据共享：类数据共享（Class Data Sharing, CDS）可以加快JVM启动速度并减少内存消耗。可以通过-XX:+UseSharedSpaces参数启用CDS。

使用JVM内建工具进行监控和故障排查：JVM提供了一些内建工具，如JConsole, VisualVM, jstat等，可以用于监控JVM的性能和资源使用情况，帮助定位和解决性能问题。

讲一下 ElasticSearch 的基本结构、索引和分片

Elasticsearch 结构

Elasticsearch 是一个开源的搜索引擎，基于 Apache Lucene 构建，它可以提供全文搜索功能，具有 HTTP web 接口和无模式 JSON 文档。Elasticsearch 能够处理大量数据，并且能在实时条件下提供搜索和分析功能。它的体系结构主要包括以下几个层次：

集群 (Cluster)：Elasticsearch 能够将多个服务器组织在一起，形成一个集群。集群能共享负载，提供冗余，从而提供高可靠性。

节点 (Node)：节点是集群中的一个服务器，负责存储数据，参与集群的索引和搜索功能。

索引 (Index)：索引是一种类似于数据库的数据结构，用于存储在 Elasticsearch 中的文档。

文档 (Document)：文档是 Elasticsearch 中存储的基本信息单位，类似于数据库中的一行数据。

分片 (Shard)：每个索引都会分成多个分片，每个分片是一个独立的 "索引"，可以被分配到集群中的任何节点。

副本 (Replica)：为了提高系统的容错性，Elasticsearch 会创建分片的副本。

Elasticsearch 索引

索引是 Elasticsearch 中用于存储类似类型文档的地方。比如说，你可以有一个客户的索引 (customer)，另一个订单的索引 (order)。一个索引由一个或多个称为 shards 的物理分区组成。每个分片都是一个自包含的索引，可以在 Elasticsearch 集群中的任何节点上托管。

Elasticsearch 集群和分片

在 Elasticsearch 中，集群是由一个或多个节点组成的，能够共同执行数据索引、搜索和分析的服务器组。每个节点都知道所有其他节点的存在，并且可以直接与任何其他节点通信。

分片是 Elasticsearch 进行数据分片的方式，每个索引可以被分割成多个分片。每个分片都是一个完全独立的索引，可以在集群中的任何节点上托管。分片的主要优点是，它们允许你水平地拆分和扩展你的数据量，并且分片可以在多个节点之间分配，这有助于提高性能和吞吐量。