Elasticsearch--解决JVM 堆内存使用率很高的问题_elasticsearch8占用大量内存-程序员宅基地

技术标签： jvm java elasticsearch ELK

原文网址：Elasticsearch--解决JVM 堆内存使用率很高的问题_IT利刃出鞘的博客-程序员宅基地

简介

说明

本文介绍如何解决ES的JVM 堆内存使用率很高的问题。

官网网址

https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html

问题描述

高 JVM 内存使用率会降低集群性能并触发断路器错误（导致内存熔断）。

为了防止这种情况发生，如果节点的 JVM 内存使用率持续超过 85%，官方建议采取措施降低内存压力。

诊断 JVM 内存压力

检查 JVM 内存使用情况

借助：node stats API 进行排查

GET _nodes/stats?filter_path=nodes.*.jvm.mem.pools.old

结果

{
    "nodes": {
        "J2-fr3wzSqqJk9cwoi2urw": {
            "jvm": {
                "mem": {
                    "pools": {
                        "old": {
                            "used_in_bytes": 179796016,
                            "max_in_bytes": 1798569984,
                            "peak_used_in_bytes": 179796016,
                            "peak_max_in_bytes": 1798569984
                        }
                    }
                }
            }
        }
    }
}

堆内存使用率为：used_in_bytes / max_in_bytes = 179796016/ 1798569984 = 9.99 6%，接近 10%。

能和 kibana 可视化监控结果保持一致：

垃圾回收日志检查

随着内存使用量的增加，垃圾收集变得更加频繁并且需要更长的时间。

你可以在 elasticsearch.log 中跟踪垃圾收集事件的频率和时长。

例如，以下事件表明 Elasticsearch 在过去 40 秒中花费了超过 50%（21 秒）执行垃圾收集。

[timestamp_short_interval_from_last][INFO ][o.e.m.j.JvmGcMonitorService] [node_id] [gc][number] overhead, spent [21s] collecting in the last [40s]

降低JVM 堆内存使用率方案

1. 减少分片数

关于分片的几点认知：

第一：搜索请求是以分片为单位发起的。

至少 7.16 版本之前是，如下图示更能说明问题：

这暗示了什么？

必然是：分片越多，检索越慢。

因为：跨大量分片的搜索可能会耗尽节点的搜索线程池，这可能导致吞吐量低和搜索速度慢。

第二：每个索引和分片都有内存和 CPU 开销。

每个索引和每个分片都需要一些内存和 CPU 资源。

在大多数情况下，一小组大分片比许多小分片使用更少的资源。

为什么呢？解释一下：

分片的底层是 Lucene 分段。
段的元数据会保留在 JVM 堆内存中，以便快速检索。
分片越多，意味着分段会越多，进而分段元数据会越多，JVM 堆内存使用率会越高。反之，则相反。

第三：Elasticsearch 会在相同角色的节点间平衡分片。

节点角色划分是 7.x 高版本新的节点定义方式，其目的是：节点用途更明确。

当添加新节点或某节点出故障时，Elasticsearch 会自动在相同角色层的剩余节点之间重新平衡索引的分片。

关于减少分片数，更确切的是如何合理规划分片，官方建议如下：

尽量避免 delete_by_query 删除文档，更好的方案是直接删除索引。
使用 datastrem 和 ILM 索引生命周期管理管理时序数据。
分片大小控制在 10GB-50GB。
控制在每 GB 堆内存 20 个分片以内。
1. 也就是说：具有 30GB 堆内存的节点最多应该有 600 个分片。
第五：避免单个节点分片过多、负载过重。
1. 如果单个节点包含太多分片，且索引量很大，则该节点可能会出现问题。可以使用如下命令行加以控制：
```
PUT my_index_001/_settings
{
    "index":   {
        "routing.allocation.total_shards_per_node":  5
    }
}
```

2.避免复杂检索

复杂搜索会占用大量的内存空间。建议启用：慢日志进行排查。

导致内存使用率飙升的复杂查询，通常具备如下的特点：

size 召回值设置的巨大；
包含分桶值很大的聚合操作或者聚合嵌套很深；
包含极其耗费资源的查询，举例：script 查询、fuzzy 查询、regexp 查询、prefix 查询、wildcard查询、text 或 keyword 上的 range 查询。

为避免复杂查询，常规措施如下：

限制：index.max_result_window 的大小。

PUT _settings
{
  "index.max_result_window": 5000
}

设置 search.max_buckets cluster 以限制分桶值大小。

PUT _cluster/settings
{
  "persistent": {
    "search.max_buckets": 20000,
  }
}

设置 search.allow_expensive_queries 直接禁用耗费资源的查询。

PUT _cluster/settings
{
  "persistent": {
    "search.allow_expensive_queries": false
  }
}

3.避免 Mapping “爆炸”

定义过多的字段或嵌套过深的字段会导致使用大量内存，出现“Mapping 爆炸" 现象。

为防止“Mapping 爆炸“，使用映射限制设置来限制字段映射的数量。

PUT my_index_001/_settings
{
    "index.mapping.total_fields.limit": 100
}

4.分散批量请求

批量请求虽然比单个请求更有效，但大批量写入（以 bulk 操作为代表）或多搜索请求（以 _msearch 为代表）仍然会产生较高的 JVM 内存压力。

如果可能，提交较小（小是个相对值，需要根据集群性能测算出适合自己集群的经验值）的请求并在它们之间留出更多时间时隔。

5.升级节点内存

繁重的写入操作和搜索负载过重均会导致高 JVM 内存压力。

为了更好地处理繁重的工作负载，在其他方法都不灵的情况下，可以考虑通过为节点内存扩容以达到升级节点目的。

这是无法之法，这是万能之法。

本文链接：https://blog.csdn.net/feiying0canglang/article/details/128752672

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

51单片机的中断系统_51单片机中断篇-程序员宅基地

文章浏览阅读3.3k次，点赞7次，收藏39次。CPU 执行现行程序的过程中，出现某些急需处理的异常情况或特殊请求，CPU暂时中止现行程序，而转去对异常情况或特殊请求进行处理，处理完毕后再返回现行程序断点处，继续执行原程序。void 函数名(void) interrupt n using m {中断函数内容 //尽量精简 }编译器会把该函数转化为中断函数，表示中断源编号为n，中断源对应一个中断入口地址，而中断入口地址的内容为跳转指令，转入本函数。using m用于指定本函数内部使用的工作寄存器组，m取值为0~3。该修饰符可省略，由编译器自动分配。_51单片机中断篇

oracle项目经验求职,网络工程师简历中的项目经验怎么写-程序员宅基地

文章浏览阅读396次。项目经验(案例一)项目时间：2009-10 - 2009-12项目名称：中驰别克信息化管理整改完善项目描述：项目介绍一，建立中驰别克硬件档案(PC,服务器，网络设备，办公设备等)二，建立中驰别克软件档案(每台PC安装的软件，财务，HR，OA，专用系统等)三，能过建立的档案对中驰别克信息化办公环境优化(合理使用ADSL宽带资源，对域进行调整，对文件服务器进行优化，对共享打印机进行调整)四，优化完成后..._网络工程师项目经历

LVS四层负载均衡集群-程序员宅基地

文章浏览阅读1k次，点赞31次，收藏30次。LVS：Linux Virtual Server，负载调度器，内核集成，阿里的四层SLB(Server Load Balance)是基于LVS+keepalived实现。NATTUNDR优点端口转换WAN性能最好缺点性能瓶颈服务器支持隧道模式不支持跨网段真实服务器要求anyTunneling支持网络private（私网）LAN/WAN（私网/公网）LAN（私网）真实服务器数量High (100)High (100)真实服务器网关lvs内网地址。

「技术综述」一文道尽传统图像降噪方法_噪声很大的图片可以降噪吗-程序员宅基地

文章浏览阅读899次。https://www.toutiao.com/a6713171323893318151/作者 | 黄小邪/言有三编辑 | 黄小邪/言有三图像预处理算法的好坏直接关系到后续图像处理的效果，如图像分割、目标识别、边缘提取等，为了获取高质量的数字图像，很多时候都需要对图像进行降噪处理，尽可能的保持原始信息完整性（即主要特征）的同时，又能够去除信号中无用的信息。并且，降噪还引出了一..._噪声很大的图片可以降噪吗

Effective Java 【对于所有对象都通用的方法】第13条谨慎地覆盖clone_为继承设计类有两种选择,但无论选择其中的-程序员宅基地

文章浏览阅读152次。目录谨慎地覆盖cloneCloneable接口并没有包含任何方法，那么它到底有什么作用呢？Object类中的clone()方法如何重写好一个clone()方法1.对于数组类型我可以采用clone()方法的递归2.如果对象是非数组，建议提供拷贝构造器（copy constructor）或者拷贝工厂（copy factory）3.如果为线程安全的类重写clone()方法4.如果为需要被继承的类重写clone()方法总结谨慎地覆盖cloneCloneable接口地目的是作为对象的一个mixin接口（详见第20_为继承设计类有两种选择,但无论选择其中的

毕业设计基于协同过滤的电影推荐系统-程序员宅基地

文章浏览阅读958次，点赞21次，收藏24次。今天学长向大家分享一个毕业设计项目基于协同过滤的电影推荐系统项目运行效果：项目获取：https://gitee.com/assistant-a/project-sharing21世纪是信息化时代，随着信息技术和网络技术的发展，信息化已经渗透到人们日常生活的各个方面，人们可以随时随地浏览到海量信息，但是这些大量信息千差万别，需要费事费力的筛选、甄别自己喜欢或者感兴趣的数据。对网络电影服务来说，需要用到优秀的协同过滤推荐功能去辅助整个系统。系统基于Python技术，使用UML建模，采用Django框架组合进行设

随便推点

你想要的10G SFP+光模块大全都在这里-程序员宅基地

文章浏览阅读614次。10G SFP+光模块被广泛应用于10G以太网中，在下一代移动网络、固定接入网、城域网、以及数据中心等领域非常常见。下面易天光通信（ETU-LINK）就为大家一一盘点下10G SFP+光模块都有哪些吧。一、10G SFP+双纤光模块10G SFP+双纤光模块是一种常规的光模块，有两个LC光纤接口，传输距离最远可达100公里，常用的10G SFP+双纤光模块有10G SFP+ SR、10G SFP+ LR，其中10G SFP+ SR的传输距离为300米，10G SFP+ LR的传输距离为10公里。_10g sfp+

计算机毕业设计Node.js+Vue基于Web美食网站设计(程序+源码+LW+部署)_基于vue美食网站源码-程序员宅基地

文章浏览阅读239次。该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：项目技术：Express框架 + Node.js+ Vue 等等组成，B/S模式 +Vscode管理+前后端分离等等。环境需要1.运行环境：最好是Nodejs最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发环境：Vscode或HbuilderX都可以。推荐HbuilderX;3.mysql环境：建议是用5.7版本均可4.硬件环境：windows 7/8/10 1G内存以上；_基于vue美食网站源码