Elasticsearch的get操作为什么那么慢

在我们具体的业务操作过程中,我们会通过id进行get操作。 例如:

GetResponse response = client.prepareGet("twitter", "tweet", "1")
    .execute().actionGet();

但是我们发现Elasticsearch1.2.2版本进行get操作非常的慢。 我们通过JVM分析工具进行分析: 通过工具的分析结果,我们可以看到节点服务器的cpu基本全部跑满,主要是因为每次es的get请求的条件都不一样,在ES集群的 queryResult caches 中获取不到结果,所以每次都得调用identityHashCode来重新计算hash值,然后放入 WeakIdentityMap 中,这些操作占用了绝大部分cpu时间,导致服务器的cpu占用率非常高。

通过对比Elasticsearch1.2.2版本和后续Elasticsearch1.5.2版本,我们发现在Elasticsearch1.5.2版本中,get操作已经弃用了bloomfilter的hash算法处理,使用 ConcurrentMap> lookupStates 缓存了上一次根据_uid进行reader的信息。 如果在lookupStates中找不到,InternalEngine.get方法返回 GetResult.NOT_EXISTS ,继而ShardGetService. innerGet 直接返回 new GetResult(shardId.index().name(), type, id, -1, false, null, null)。

但是通过后期业务运营发现虽然Elasticsearch1.5.2改进了get操作,但性能还是很慢。 因为在我们的业务中,通过_id去直接get索引的source信息的,而_id默认是not indexed(默认不索引),索引导致get操作那么慢。

doc_value的使用

在我们实际的业务中,使用复杂的条件进行搜索时,经常出现Out Of Memory的错误,

主要是目前我们所有的fielddata都放在内存中计算导致的,此类问题可以通过doc_values来解决。

什么是doc_value

In-memory模式中,fielddata受到heap内存大小限制,虽然这个问题可以通过集群的横向扩容解决,可能需要经常增加节点,而且即使加了,你还是会发现在其他一些资源利用不充分的节点上,在排序和聚合查询的时候仍然会消耗你大量的heap空间。

fielddata字段数据默认下,会频繁的在内存当中加载。但这不是唯一的方法,在索引数据时,fielddata字段数据还可以被写在磁盘中,这种方式可以提供和加载到内存中的一样的功能,而不会占用heap的内存空间。

Docvalues是在1.0.0之后加入到elasticsearch中的。通过基准测试与性能分析,各类的瓶颈——无论是elasticsearch还是lucene,都已经被发现并且已经被移除了。但是直到现在还是远远慢于字段数据放内存的in-memory方式。

  • 存放在磁盘代替存放内存,可以允许你的集群负载大量fielddata字段数据而不会超量使用内存。这样,你的heap space就可以设置小一些了,对垃圾回收的速度有所帮助,理所当然的,节点也会更稳定些。

  • DocValues是索引时建立的,而不是搜索的时候。当通过非反向的反向索引搜索时候,in-memory方式,内存中的字段数据必须被频繁的读写,而doc vales是预先建立的,并能更快的初始化。

像trade-off这种索引量大的搜索,访问fielddata会比较缓慢,设置docvalues会有显著的效果,在大量请求的时候,你甚至不会注意到你的搜索会变慢。结合更快的垃圾回收机制和初始化时间,你会留意到搜索性能会得到有效提升。

文件系统的缓存空间越多,docvalue的性能会越好。如果文件都是docvalues并且都位于文件系统的缓存中,那么访问这些文件的速度几乎与访问内存媲美的。而文件系统缓存由内核控制而非JVM。

启动DocValues

numeric, date, Boolean, binary, and geo-point这些字段以及not_analyzed的字符串可以设置Docvalues属性。一般不处理analyze的字符串字段。Docvalues在mapping重的每个字段属性中定义,这样对于不同的字段,可以结合in-memory与docvalues使用。

PUT /music/_mapping/song

{

    “properties” : {

        “tag”: {

            “type”:       “string”,

            “index” :     “not_analyzed”,

            “doc_values”: true

        }

    }

}

设置了docvalues之后,字段创建时,就是用磁盘存储fielddata而不是内存存储fielddata了。

就这样!不需要再配置其他东西,查询,聚合,排序,以及一般的功能脚本;他们现在都会用到docvalues了。

你可以随便的使用docvalues这参数。用得越多,你使用的heap内存空间就可以越少。在不久的将来,docvalues应该会变成默认的参数。