【ES三周年】高效搜索引擎ElasticSearch介绍-世界时快讯

2023-02-23 08:08:11 来源: 腾讯云

ElasticSearch

简介

官网：https://www.elastic.co/cn/products/elasticsearch

特点：

高速、扩展性、最相关的搜索结果。分布式 - 节点对外表现对等，每个节点都可以作为入门，加入节点自动负载均衡。JSON - 输入输出格式是 JSON。Restful 风格，一切 API 都遵循 Rest 原则，容易上手。近实时搜索，数据更新在 Elasticsearch 中几乎是完全同步的，数据检索近乎实时。安装方便 - 没有其它依赖，下载后安装很方便，简单修改几个参数就可以搭建集群。支持超大数据：可以扩展到 PB 级别的结构化和非结构化数据。

■Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。

(资料图)

■Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

■Elasticsearch 还是高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。

ElasticSearch信息概览

什么是index，type，doc

■index：索引是文档(Document)的容器，是一类文档的集合，可以理解成我们常用的mysql中的数据库。

■Type 可以理解成mysql中的表。

■Document Index 里面单条的记录称为Document（文档）。等同于mysql中的一行数据。

建库，建表，建字段

■建库脚本

PUT http://127.0.0.1:9200/cunw-share-es-index

就这么一个请求就可以建成一个以cunw-share-es-index为库名的ES数据库索引库；

■建表脚本，建字段

PUT http://127.0.0.1:9200/cunw-share-es-index/sanbu/1

PUT http://127.0.0.1:9200/cunw-share-es-index/sanbu/1{   "name":"大哥",   "sex": "男",   "hight":"180",   "date":"2022-01-01",   "info":"Hello World"}

索引基本创建完成。

什么是mapping

■mapping 是用来定义文档及其字段的存储方式、索引方式的手段，例如利用mapping 来定义以下内容：哪些字段需要被定义为全文检索类型；哪些字段包含number、date类型等格式化时间格式；自定义规则，用于控制动态添加字段的映射。

■mapping是一种简单的数据类型，例如text、keyword、integer、double、boolean、long、date、ip类型。也可以是一种分层的json对象（支持属性嵌套）。也可以是一些不常用的特殊类型，例如geo_point、geo_shape、completion。

■针对同一字段支持多种字段类型可以更好地满足我们的搜索需求，例如一个string类型的字段可以设置为text来支持全文检索，与此同时也可以让这个字段拥有keyword类型来做排序和聚合，另外我们也可以为字段单独配置分词方式，例如"analyzer": "ik_max_word"。从某种意义上来讲，就是表字段类型，int,varchar,date...

为什么要用mapping

提出疑问，修改一个字段的类型：

{  "sanbu": {    "properties": {      "hight": {         "type": "integer"         }      }   }}

为什么不能修改一个字段的type？原因是一个字段的类型修改以后，那么该字段的所有数据都需要重新索引。Elasticsearch底层使用的是lucene库，字段类型修改以后索引和搜索要涉及分词方式等操作。

ElasticSearch 分片，副本

■数据分片：

简单来讲就是咱们在ES中所有数据的文件块，也是数据的最小单元块，整个ES集群的核心就是对所有分片的分布、索引、负载、路由等达到惊人的速度。

实列场景：

假设 IndexA 有2个分片，我们向 IndexA 中插入10条数据 (10个文档)，那么这10条数据会尽可能平均的分为5条存储在第一个分片，剩下的5条会存储在另一个分片中。说白了：数据分片其实类似主流关系型数据库的表分区（分表）的概念有点类似。这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索要注意的是分片的数量只能在索引创建前指定，并且索引创建后不能更改。

分片数量设置计算公式：

分片个数是越多越好，还是越少越好了？根据整个索引的数据量来判断。SN(分片数) = IS(索引大小) / 30，当然也要根据能够给ES分配资源的实际情况而定夺。

■数据副本

副本是主分片的拷贝，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。副本分片数，可以动态的修改。增加副本数，还可以在一定程度上提高服务的可用性（读取的吞吐）。

■设置分配，副本脚本代码

PUT /index    {        "settings":{            "number_of_shards" : 3, //指 这个index主分片分布在3个节点上            "number_of_replicas":1  //指 每一个主分片都有一个副本         }    }

■查询写法

es中的查询请求有两种方式，一种是简易版的查询，另外一种是使用JSON完整的请求体，叫做结构化查询（DSL）。由于DSL查询更为直观也更为简易，所以大都使用这种方式。DSL查询是POST过去一个json，由于post的请求是json格式的，所以存在很多灵活性，也有很多形式。

最基本的查询语句，查询所有数据值得注意的是，在请求之前一定确保它是正确的Json。

{    "query": {        "match_all": {}    }}

查询过滤条件关键字

■查询关键字的用法match，term，wildcard，range....

1.match 通过单词字面意思理解是匹配的意思，顾名思义如果匹配到其中的任意字词就会命中，其实就是通过ES默认的ik分词器去做分词查询。

{    "query": {        "match": {       "name":软"    }    }}

2.term 如果匹配到其中所有字词才会命中。

{    "query": {        "match": {       "name":"软"    }    }}

3.wildcard 用法类似mysql的like，注意这里的通配符是*

{    "query": {        "match": {       "name":"*软*"    }    }}

4.range 看到这个词就会想到区间，它的用法类似于mysql的between ..and ..

{    "query": {        "range": {     "height":{     "gt": "150",     "lt": "170"      } }    }}

update，delete语句

■ 根据ID进行单个更新

POST /index/type/_id/_update{   "doc" : {      "publish_date" :"2021-11-10",   }}

■ 根据ID进行单个删除

DELETE /index/type/_id

Elastic 有一条完整的产品线 ELK - Elasticsearch、Logstash、Kibana，前面说的三个就是常说的 ELK 技术栈（开源实时日志分析平台）。Logstash 的作用就是一个数据收集器，将各种格式各种渠道的数据通过它收集解析之后格式化输出到 Elastic Search ，最后再由 Kibana 提供的比较友好的 Web 界面进行汇总、分析、搜索。ELK 内部实际就是个管道结构，数据从Logstash 到 Elastic Search 再到 Kibana 做可视化展示。这三个组件各自也可以单独使用，比如 Logstash 不仅可以将数据输出到 Elastic Search ，也可以到数据库、缓存等。

关于ES的内容还有很多东西等着我们，搭建、分词器、集群、节点角色分配、冷热分离、读写分离等等，后续我们再输出相关详细内容。

Kibana

简介

Kibana 是 Elastic Stack 成员之一，它是一个基于 Node.js 的 Elasticsearch 索引库数据统计工具，可以利用 Elasticsearch 的聚合功能，生成各种图表，如柱形图，线状图，饼；而且还提供了操作 Elasticsearch 索引数据的控制台，并且提供了一定的 API 提示。您可以使用 Kibana 对 Elasticsearch 索引中的数据进行搜索、查看、交互操作。您可以很方便地利用图表、表格及地图对数据进行多元化的分析和呈现。

Kibana 可以使大数据通俗易懂。它很简单，基于浏览器的界面便于您快速创建和分享动态数据仪表板来追踪 Elasticsearch 的实时数据变化。

搭建

搭建 Kibana 非常简单。可以分分钟完成 Kibana 的安装并开始探索 Elasticsearch 的索引数据 ——— 没有代码、不需要额外的基础设施。当前我们公司使用的版本是 5.5.1。

常用模块

■ Discover

Discover 主要是做索引查询，功能非常强大。从发现页可以交互地探索ES的数据。可以访问与所选索引模式相匹配的每一个索引中的每一个文档。可以提交搜索查询、筛选搜索结果和查看文档数据。还可以看到匹配搜索查询和获取字段值统计的文档的数量。如果一个时间字段被配置为所选择的索引模式，则文档的分布随着时间的推移显示在页面顶部的直方图中。

■ Visualize

视图展示，支持许多风格。可视化能使你创造你的 Elasticsearch 指标数据的可视化。然后你可以建立仪表板显示相关的可视化。Kibana 的可视化是基于 Elasticsearch 查询。通过一系列的 Elasticsearch聚合提取和处理您的数据，您可以创建图表显示你需要知道的关于趋势，峰值和骤降。您可以从搜索保存的搜索中创建可视化或从一个新的搜索查询开始。

■ Dashboard

图表展示，一个仪表板显示Kibana保存的一系列可视化。你可以根据需要安排和调整可视化，并保存仪表盘，可以被加载和共享。

■ Timelion

Timelion 是一个时间序列数据的可视化功能，可以结合在一个单一的可视化完全独立的数据源。它是由一个简单的表达式语言驱动的，你用来检索时间序列数据，进行计算，找出复杂的问题的答案，并可视化的结果。这个功能由一系列的功能函数组成，同样的查询的结果，也可以通过 Dashboard 显示查看。

■ Dev Tools

其实就是一个控制台，可以直接使用 DSL语法来直接操作es中的数据，使用户方便地通过浏览器直接与 Elasticsearch 进行交互。

使用

■ 搜索、查看并可视化 Elasticsearch 中所索引的数据，并通过创建柱状图、饼状图、表格、直方图和地图对数据进行分析。仪表板视图能将这些可视化元素集中到一起，然后通过浏览器加以分享，以提供有关海量数据的实时分析视图，为下列用例提供支持：

a：日志处理和分析

b：基础设施指标和容器监测

c：应用程序性能监测 (APM)

d：地理空间数据分析和可视化

e：安全分析

f：业务分析

■ 借助网络界面来监测和管理 Elastic Stack 实例并确保实例的安全。

■ 针对基于 Elastic Stack 开发的内置解决方案（面向可观测性、安全和企业搜索应用程序），将其访问权限集中到一起

如何使用

使用 Discover 搜索栏进行搜索。使用 Dev Tools 的 Console 直接与 Elastcsearch 进行交互。

DSL语法

■ 查询所有

■ 查询特定的字段，按照指定字段排序

■ 查询指定字段的日志

■ 分页查询所有的日志

本人就职于公司大数据组，正好近期我在公司分享了关于ES、Kiban和机器学习的一些知识，总结出本文献给大家。

【ES三周年】高效搜索引擎ElasticSearch介绍-世界时快讯

ElasticSearch

简介

ElasticSearch信息概览

什么是index，type，doc

建库，建表，建字段

什么是mapping

为什么要用mapping

ElasticSearch 分片，副本

查询过滤条件关键字

update，delete语句

Kibana

简介

搭建

常用模块

使用

如何使用

DSL语法

每日热点

【ES三周年】高效搜索引擎ElasticSearch介绍-世界时快讯

动力电池将迎“退役”高峰 上市公司积极布局锂电池回收-环球快播

快递服务“最后100米”难题亟待破解-焦点

制造业生产指数扩张 产业链稳定运转-世界今头条

家电业数智化转型激活存量优势-全球时快讯

环境部长不打招呼查污染 多家企业被抓现行

IPv6板块2月22日跌0.12%，*ST蓝盾领跌，主力资金净流入2.31亿元

领英群发消息方法技巧-简讯

美亚柏科：公司2017年成立AI研发中心，深度开展人工智能技术研究-环球快报

科创氛围浓厚 近万家国家级高新技术企业汇聚东莞-独家

强信心·开新局丨市场需求旺 企业扩产忙——江西企业生产一线走访观察

华安鑫创：2月21日公司高管肖炎减持公司股份合计34万股-今日热闻

圣阳股份：2月22日公司高管宋斌减持公司股份合计301.09万股

龙佰集团：2月21日公司高管杨民乐、常以立增持公司股份合计19万股-全球热点评

科力尔：2月21日公司高管聂葆生减持公司股份合计7.57万股-世界速递

华测导航：2月21日公司高管赵延平减持公司股份合计35.03万股-天天关注

Equinix在硅谷扩张 拥有142亿美元的数据中心园区-全球焦点

奥兰治县办公室校园以155万美元的价格交易-每日热点

休斯顿1.2无国界医生马拉松油塔改造揭晓-全球即时

杰克逊维尔工业地产以30万美元的价格出售-焦点滚动

安博签署洛杉矶东南部全楼租赁

中国红十字基金会“呵护花开”女童关爱项目走进山西-全球资讯

中航光电：截止2月20日，公司股东户数为60,142-天天聚看点

谁在撒谎？"钙钛矿大神"又被打假，20亿市值蒸发！多方发声“澄清”，谁来为此买单？-天天快看

正裕工业：2月21日公司高管郑连平减持公司股份合计12.06万股

仕佳光子：2月20日公司高管张志奇、雷杰减持公司股份合计8.25万股

北京消费季将开展全球首发节等主题活动-环球观点

爱奇艺首次实现全年运营盈利 会员数涨至1.2亿-天天简讯

嘉美包装：三片食品罐可用于包装罐头类食品，公司三片罐专注于饮料罐业务，目前末涉及食品罐业务-全球微动态

博亚精工：公司募投项目正在推进，新购设备陆续进厂安装调试，将提升公司生产制造水平-环球热推荐

本川智能：公司目前暂不涉及题述相关技术或领域-天天热资讯

硅宝科技：2月21日公司高管方丽减持公司股份合计8000股-当前独家

强信心·开新局丨餐厅人气旺盛 转型招商繁忙——来自陕西西安的“走商场看市场”观察

“保姆式”服务、智能化工厂、连片化土地——水稻大省湖南春耕一线观察-环球今亮点

上合示范区在京举行合作洽谈会 12个重点项目落地-世界今热点

森峰科技“小巨人”资质或有水分，与供应商数据“打架”-世界即时

喜报！睿住智能获评“2022年度广东省专精特新企业”-天天即时看

创历史新高！2022年长三角地区开行中欧（亚）班列5063列

中科磁业 曼恩斯特 光大同创 科源制药创业板IPO过会-每日热文

华立股份：截至2023年2月20日公司股东总数为9646户

达志科技：公司今年的财务数据及财务指标具体情况，敬请关注公司后续披露的定期报告，感谢您对公司关注-快资讯

东港股份：截至2月20日我公司股东总数为68,511户-焦点日报

云南能投：公司及控股股东能投集团一直以来高度重视社会责任，积极履行国企担当

圣卢西亚投资移民项目助力投资者实现多元资产配置

从卖茶叶到卖风景 产业链条推动茶文旅融合发展

旅游营销进入“数字化时代” 企业招聘掀起“抢人大战”

“智”在生产线：看“智能木匠”如何生产家具-环球播资讯

北京疾控：近期新冠疫情处于局部零星散发状态-每日时讯

万和电气：公司将结合行业发展状况，立足自身实际制定中长期发展规划-百事通

欣天科技：公司的产品未直接供货给新能源汽车厂商

锡装股份：公司不存在您提及的事项。感谢您的关心支持！

长荣股份：部分订单取消确因客观环境变化影响，其中无新冠检测盒包装生产线业务的相关订单-每日快讯

高考科目文综/理综具体考哪几科 -环球短讯

2022中秋节法定节假日是几天 2022年中秋节放假安排表 -环球聚看点

中秋节放假2021年放几天 2021中秋节放假安排通知

dnf如何卡领主粉-天天报资讯

五行穿衣指南2022年5月30日分享 2022年穿衣五行每日分享|黄历凶吉 -天天速讯

2022年7月15日五行穿衣指南 2022年每日五行穿衣法|黄历凶吉

2022年立秋准确时间几点几分 2022年立秋开始时间结束时间

2022立秋是几月几日 2022立秋是什么时候

DNF70级以上刷图用什么人偶-今日播报

动力电池将迎“退役”高峰上市公司积极布局锂电池回收-环球快播

制造业生产指数扩张产业链稳定运转-世界今头条

环境部长不打招呼查污染多家企业被抓现行

科创氛围浓厚近万家国家级高新技术企业汇聚东莞-独家

强信心·开新局丨市场需求旺企业扩产忙——江西企业生产一线走访观察

Equinix在硅谷扩张拥有142亿美元的数据中心园区-全球焦点

爱奇艺首次实现全年运营盈利会员数涨至1.2亿-天天简讯

强信心·开新局丨餐厅人气旺盛转型招商繁忙——来自陕西西安的“走商场看市场”观察

中科磁业曼恩斯特光大同创科源制药创业板IPO过会-每日热文

从卖茶叶到卖风景产业链条推动茶文旅融合发展

跑男第八季成员名单跑男第八季什么时候播出

大暑是最热的一天吗大暑天是不是最热的 -当前动态

北京健康宝核酸天数计算规则变了吗健康宝核酸显示1天还在24小时吗-报资讯

2022七星连珠直播几点开始七星连珠会发生什么事-环球快资讯

空调不凉了怎么回事为什么空调不凉了

微信核酸结果怎么查询微信核酸结果如何查询-每日快报

桃花源记的成语桃花源记里的成语有哪些

正月初六是什么日子正月初六有哪些习俗|黄历凶吉

lol游戏中怎么回复好友这三种办法你需要知道

龚翔宇身高龚翔宇个人简介-热资讯

廊坊是哪个省的城市廊坊属于河北省的城市-世界资讯

中秋节是几月几号每年中秋节是几月几日

微信如何拍一拍好友具体操作方法-环球快播报

重阳贺卡教程重阳节贺卡如何做-环球微资讯