java es搜索引擎 ES集群原理与搭建

作者: 分类: 科技发布时间: 2023-11-04 09:04:36

ES大数据量下的查询优化类似于在mysql上搭建redis缓存。Es的搜索引擎非常依赖底层，如果你给多点内存，尽量让内存容纳indxsegmentfile的所有索引数据文件，那么搜索的时候基本都会占用内存，性能会很高，Es是一个分布式全文搜索引擎，是基于Lucene全文搜索框架开发的，我们带着赞美介绍了搜索引擎的基本框架。搜索引擎主要由三部分组成，首先。

es搜索引擎的原理

1、ES大数据量下的查询优化

类似于在mysql上构建redis缓存；Es的搜索引擎非常依赖底层。如果你给多点内存，尽量让内存容纳indxsegmentfile的所有索引数据文件，那么搜索的时候基本都会占用内存，性能会很高。两者差距很大，读盘和读系统的性能差距可以说是秒和毫秒的差距；为了让es的性能更好，我们机器的内存充其量至少能装下你一半的数据。es中最多只存储了少量数据，并且存储了用于搜索的索引。如果只是100G，那么你可以把数据控制在100gb以内，相当于你几乎所有的数据都在内存中搜索，性能非常高。一般1秒内可以用几个字段。比如只写esidnameage的三个字段，然后就可以在mysql中存储其他字段的数据了。我们通常建议使用es hbase架构。

2、ES集群原理与搭建

查看集群健康状态:URL /GET_cat/healthCluster代表一个集群，集群中有很多节点，其中一个是主节点，可以选举，主从节点在集群内部。es的一个概念就是去中心化，字面意思就是没有中心节点。这是针对集群外部的，因为从外部来看，es集群在逻辑上是一个整体，你与任何一个节点的通信都等同于与整个es集群的通信。

构成分布式搜索。切片数只能在创建索引之前指定，在创建索引之后不能更改。Replicas代表索引副本，es可以设置多个索引副本。副本的第一个功能是提高系统的容错能力，当节点的一个片段损坏或丢失时，从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。Recovery代表数据恢复或数据重新分发。es会在节点加入或退出时根据机器的负载重新分配索引碎片，也会在挂起的节点重新启动时恢复数据。

3、es查询附近的人多远会查询慢

es查询100米外附近的人会很慢。Es查询是以给定位置为圆心画一个圆，找出地理坐标100米范围内的人。Es是一个分布式全文搜索引擎，是基于Lucene全文搜索框架开发的。分布式实时文件存储，每个字段都可以被索引、聚集和扩展。高度集成的服务RESTful风格的API，易于学习和使用每种语言的客户端。

4、有赞搜索引擎实践(算法篇

注:在上一篇文章(工程篇)中，我们介绍了Zanzan搜索引擎的基本框架。搜索引擎主要由三部分组成。一是利用hadoop集群生成大规模搜索和实时索引；第二，ElasticSearch集群提供分布式搜索方案；第三，高级搜索集群用于提供商业搜索的特殊功能。由于商业电子商务搜索的特殊性，独立的弹性搜索集群无法满足多样化的算法需求。

一种用于构建商业电子商务搜索引擎的算法系统。创建索引的过程就是从原始数据创建倒排索引的过程。在这个过程中，我们分析产品(doc)，计算产品的静态评分，计算产品的相似度。产品的静态评分对搜索引擎质量的提升起着至关重要的作用，相当于网页搜索的pagerank。想象一下，如果没有pagerank算法，网页搜索的质量会有多差。在电子商务搜索中，

5、es使用与原理4--phrasematch,slop近似匹配,搜索推荐等等

matchquery，只能搜索包含java和spark的文档，但不知道java和spark是否靠得很近，会返回包含java或spark或者两者都包含的文档。我们真的不知道doc，java和spark哪个更接近。如果我们只是想搜索javaspark，并且中间不能插入任何其他字符或者指定中间只能分隔num个字符，match此时可以做全文搜索吗？

6、基于es的商品搜索功能实现(上

需要搜索公司的电商app。经过分析整理，列出以下需求点:接下来，通库的设计和商品清单的编码已经直接用在业务库中，只需要设计es索引即可。es安装好之后，会安装jk和拼音插件，因为后面会用到拼音功能，但现阶段先不要担心拼音。产品表定义:产品类对应的仓库定义:参照application.yml文件增加mavenpom文件，增加es相关配置。以上定义完成后，项目开始。成功后可以看到如下提示(调试级别下):如果没有错误信息伴随(es索引配置错误，会相应提示)，此时es中的产品索引应该已经创建成功。

7、es写入数据的工作原理是什么?

1)客户端随机选择一个节点发送请求，这个节点就是coordinating node 2)coordinating node。对数据进行哈希处理后，判断数据属于哪个分片进程，找到该分片主分片的节点。然后路由文档并将请求转发到相应的节点(带有primaryshard的节点)。3)专门接收的primaryshard处理请求，然后将数据同步到replicanode。4)协调节点，如果发现primarynode和所有副本节点都已完成，则向客户端返回响应结果并写入数据。1)先写入缓冲区，缓冲区内无法搜索到数据；同时将数据写入translog日志文件(防止停机缓冲区数据丢失)。2)如果缓冲区快满了，或者到了某个时间，缓冲区数据会被刷新到一个新的segmentfile中，但此时数据不会直接进入segmentfile的磁盘文件，而是先进入。

8、全文搜索之MySQL与ElasticSearch搜索引擎

MySQL支持全文索引和搜索功能。您可以在CHAR、VARCHAR或text列中使用full-text来创建MySQL中的全文索引。全文索引主要使用MATCH()...靠语法实现搜索:MySQL的全文搜索有以下局限性:一般来说，MySQL自带的全文搜索使用相对有限，性能和功能都不成熟，主要适用于小型项目。对于大型项目，建议使用elasticsearch做全文搜索。

Elasticsearch是在ApacheLucene的基础上发展起来的。Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展性著称，是ElasticStack的核心组件。ElasticStack是一套适用于数据获取、丰富、存储、分析和可视化的开源工具。

9、[4]es段合并的原理和作用

elasticsearch中的每个索引都会创建一个到多个片段和零到多个副本，本质上都是lucene索引。Lucene索引是基于多个索引段创建的，索引文件中的大部分数据都是一次写入多次读取，只有用来保存文档删除信息的文件才会被多次更改。在某些时候，当满足某些条件时，多个索引段将被复制并合并为一个更大的索引段，而那些旧的索引段将被丢弃并从磁盘中删除，这个操作被称为段合并弹性搜索，它允许用户选择段合并策略和存储级别节流。通常，不需要修改段合并的默认设置，记录日志时，日志每天、每周和每月都有索引。