Elasticsearch 5 卡住从磁盘读取
我有一个包含6个节点的集群,带有ES 5.4,其中有4B个小文档尚未编制索引。
文档以大约 9000 个索引进行组织,总共 2TB。索引的占用从几KB到数百GB不等,并且它们被分片以保持每个分片低于20GB。
群集运行状况查询的响应方式为:
{
cluster_name: "##########",
status: "green",
timed_out: false,
number_of_nodes: 6,
number_of_data_nodes: 6,
active_primary_shards: 9014,
active_shards: 9034,
relocating_shards: 0,
initializing_shards: 0,
unassigned_shards: 0,
delayed_unassigned_shards: 0,
number_of_pending_tasks: 0,
number_of_in_flight_fetch: 0,
task_max_waiting_in_queue_millis: 0,
active_shards_percent_as_number: 100
}
在向集群发送任何查询之前,它是稳定的,并且每秒都会获得一个批量索引查询,其中包含10或数千个文档,没有问题。
一切都很好,直到我将一些流量重定向到此群集。一旦它开始响应,大多数服务器就会开始以 250 MB/s 的速度从磁盘读取数据,从而使群集无响应:
奇怪的是,我在AWS上克隆了这个ES配置(相同的硬件,相同的Linux内核,但不同的Linux版本),我没有问题:注意:请注意,40MB / s的磁盘读取是我在为流量提供服务的服务器上一直拥有的。
相关的 Elasticsearch 5 配置包括:
-
Xms12g -Xmx12g
在jvm.options
我还使用以下配置对其进行了测试,但没有成功:
bootstrap.memory_lock:true
MAX_OPEN_FILES=1000000
每台服务器有16个CPU和32GB的RAM;有些有Linux Jessie 8.7,有些有Jessie 8.6;所有内核都有内核 3.16.0-4-amd64。
我检查了每个节点上的缓存,并且所有服务器都有类似的统计信息:缓存大小,缓存命中,未命中和逐出。localhost:9200/_nodes/stats/indices/query_cache?pretty&human
这似乎不是预热操作,因为在 AWS 克隆集群上,我从未见过此行为,也因为它永远不会结束。
我无法在 下找到有用的信息。/var/log/elasticsearch/*
我做错了什么吗?
为了解决这个问题,我应该改变什么?
谢谢!