全文搜索引擎 Elasticsearch 入门教程

作者：阮一峰

日期： 2017年8月17日

全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。

它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。

Elastic 的底层是开源库 Lucene。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装，提供了 REST API 的操作接口，开箱即用。

本文从零开始，讲解如何使用 Elastic 搭建自己的全文搜索引擎。每一步都有详细的说明，大家跟着做就能学会。

一、安装

Elastic 需要 Java 8 环境。如果你的机器还没安装 Java，可以参考这篇文章，注意要保证环境变量JAVA_HOME正确设置。

安装完 Java，就可以跟着官方文档安装 Elastic。直接下载压缩包比较简单。


$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip
$ unzip elasticsearch-5.5.1.zip
$ cd elasticsearch-5.5.1/

接着，进入解压后的目录，运行下面的命令，启动 Elastic。


$ ./bin/elasticsearch

如果这时报错"max virtual memory areas vm.maxmapcount [65530] is too low"，要运行下面的命令。


$ sudo sysctl -w vm.max_map_count=262144

如果一切正常，Elastic 就会在默认的9200端口运行。这时，打开另一个命令行窗口，请求该端口，会得到说明信息。


$ curl localhost:9200

{
  "name" : "atntrTf",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "tf9250XhQ6ee4h7YI11anA",
  "version" : {
    "number" : "5.5.1",
    "build_hash" : "19c13d0",
    "build_date" : "2017-07-18T20:44:24.823Z",
    "build_snapshot" : false,
    "lucene_version" : "6.6.0"
  },
  "tagline" : "You Know, for Search"
}

上面代码中，请求9200端口，Elastic 返回一个 JSON 对象，包含当前节点、集群、版本等信息。

按下 Ctrl + C，Elastic 就会停止运行。

默认情况下，Elastic 只允许本机访问，如果需要远程访问，可以修改 Elastic 安装目录的config/elasticsearch.yml文件，去掉network.host的注释，将它的值改成0.0.0.0，然后重新启动 Elastic。


network.host: 0.0.0.0

上面代码中，设成0.0.0.0让任何人都可以访问。线上服务不要这样设置，要设成具体的 IP。

二、基本概念

2.1 Node 与 Cluster

Elastic 本质上是一个分布式数据库，允许多台服务器协同工作，每台服务器可以运行多个 Elastic 实例。

单个 Elastic 实例称为一个节点（node）。一组节点构成一个集群（cluster）。

2.2 Index

Elastic 会索引所有字段，经过处理后写入一个反向索引（Inverted Index）。查找数据的时候，直接查找该索引。

所以，Elastic 数据管理的顶层单位就叫做 Index（索引）。它是单个数据库的同义词。每个 Index （即数据库）的名字必须是小写。

下面的命令可以查看当前节点的所有 Index。


$ curl -X GET 'http://localhost:9200/_cat/indices?v'

2.3 Document

Index 里面单条的记录称为 Document（文档）。许多条 Document 构成了一个 Index。

Document 使用 JSON 格式表示，下面是一个例子。


{
  "user": "张三",
  "title": "工程师",
  "desc": "数据库管理"
}

同一个 Index 里面的 Document，不要求有相同的结构（scheme），但是最好保持相同，这样有利于提高搜索效率。

2.4 Type

Document 可以分组，比如weather这个 Index 里面，可以按城市分组（北京和上海），也可以按气候分组（晴天和雨天）。这种分组就叫做 Type，它是虚拟的逻辑分组，用来过滤 Document。

不同的 Type 应该有相似的结构（schema），举例来说，id字段不能在这个组是字符串，在另一个组是数值。这是与关系型数据库的表的一个区别。性质完全不同的数据（比如products和logs）应该存成两个 Index，而不是一个 Index 里面的两个 Type（虽然可以做到）。

下面的命令可以列出每个 Index 所包含的 Type。


$ curl 'localhost:9200/_mapping?pretty=true'

根据规划，Elastic 6.x 版只允许每个 Index 包含一个 Type，7.x 版将会彻底移除 Type。

三、新建和删除 Index

新建 Index，可以直接向 Elastic 服务器发出 PUT 请求。下面的例子是新建一个名叫weather的 Index。


$ curl -X PUT 'localhost:9200/weather'

服务器返回一个 JSON 对象，里面的acknowledged字段表示操作成功。


{
  "acknowledged":true,
  "shards_acknowledged":true
}

然后，我们发出 DELETE 请求，删除这个 Index。


$ curl -X DELETE 'localhost:9200/weather'

四、中文分词设置

首先，安装中文分词插件。这里使用的是 ik，也可以考虑其他插件（比如 smartcn）。


$ ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.1/elasticsearch-analysis-ik-5.5.1.zip

上面代码安装的是5.5.1版的插件，与 Elastic 5.5.1 配合使用。

接着，重新启动 Elastic，就会自动加载这个新安装的插件。

然后，新建一个 Index，指定需要分词的字段。这一步根据数据结构而异，下面的命令只针对本文。基本上，凡是需要搜索的中文字段，都要单独设置一下。


$ curl -X PUT 'localhost:9200/accounts' -d '
{
  "mappings": {
    "person": {
      "properties": {
        "user": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        },
        "title": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        },
        "desc": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        }
      }
    }
  }
}'

上面代码中，首先新建一个名称为accounts的 Index，里面有一个名称为person的 Type。person有三个字段。

user

title

desc

这三个字段都是中文，而且类型都是文本（text），所以需要指定中文分词器，不能使用默认的英文分词器。

Elastic 的分词器称为 analyzer。我们对每个字段指定分词器。


"user": {
  "type": "text",
  "analyzer": "ik_max_word",
  "search_analyzer": "ik_max_word"
}

上面代码中，analyzer是字段文本的分词器，search_analyzer是搜索词的分词器。ik_max_word分词器是插件ik提供的，可以对文本进行最大数量的分词。

五、数据操作

5.1 新增记录

向指定的 /Index/Type 发送 PUT 请求，就可以在 Index 里面新增一条记录。比如，向/accounts/person发送请求，就可以新增一条人员记录。


$ curl -X PUT 'localhost:9200/accounts/person/1' -d '
{
  "user": "张三",
  "title": "工程师",
  "desc": "数据库管理"
}'

服务器返回的 JSON 对象，会给出 Index、Type、Id、Version 等信息。


{
  "_index":"accounts",
  "_type":"person",
  "_id":"1",
  "_version":1,
  "result":"created",
  "_shards":{"total":2,"successful":1,"failed":0},
  "created":true
}

如果你仔细看，会发现请求路径是/accounts/person/1，最后的1是该条记录的 Id。它不一定是数字，任意字符串（比如abc）都可以。

新增记录的时候，也可以不指定 Id，这时要改成 POST 请求。


$ curl -X POST 'localhost:9200/accounts/person' -d '
{
  "user": "李四",
  "title": "工程师",
  "desc": "系统管理"
}'

上面代码中，向/accounts/person发出一个 POST 请求，添加一个记录。这时，服务器返回的 JSON 对象里面，_id字段就是一个随机字符串。


{
  "_index":"accounts",
  "_type":"person",
  "_id":"AV3qGfrC6jMbsbXb6k1p",
  "_version":1,
  "result":"created",
  "_shards":{"total":2,"successful":1,"failed":0},
  "created":true
}

注意，如果没有先创建 Index（这个例子是accounts），直接执行上面的命令，Elastic 也不会报错，而是直接生成指定的 Index。所以，打字的时候要小心，不要写错 Index 的名称。

5.2 查看记录

向/Index/Type/Id发出 GET 请求，就可以查看这条记录。


$ curl 'localhost:9200/accounts/person/1?pretty=true'

上面代码请求查看/accounts/person/1这条记录，URL 的参数pretty=true表示以易读的格式返回。

返回的数据中，found字段表示查询成功，_source字段返回原始记录。


{
  "_index" : "accounts",
  "_type" : "person",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "user" : "张三",
    "title" : "工程师",
    "desc" : "数据库管理"
  }
}

如果 Id 不正确，就查不到数据，found字段就是false。


$ curl 'localhost:9200/weather/beijing/abc?pretty=true'

{
  "_index" : "accounts",
  "_type" : "person",
  "_id" : "abc",
  "found" : false
}

5.3 删除记录

删除记录就是发出 DELETE 请求。


$ curl -X DELETE 'localhost:9200/accounts/person/1'

这里先不要删除这条记录，后面还要用到。

5.4 更新记录

更新记录就是使用 PUT 请求，重新发送一次数据。


$ curl -X PUT 'localhost:9200/accounts/person/1' -d '
{
    "user" : "张三",
    "title" : "工程师",
    "desc" : "数据库管理，软件开发"
}' 

{
  "_index":"accounts",
  "_type":"person",
  "_id":"1",
  "_version":2,
  "result":"updated",
  "_shards":{"total":2,"successful":1,"failed":0},
  "created":false
}

上面代码中，我们将原始数据从"数据库管理"改成"数据库管理，软件开发"。返回结果里面，有几个字段发生了变化。


"_version" : 2,
"result" : "updated",
"created" : false

可以看到，记录的 Id 没变，但是版本（version）从1变成2，操作类型（result）从created变成updated，created字段变成false，因为这次不是新建记录。

六、数据查询

6.1 返回所有记录

使用 GET 方法，直接请求/Index/Type/_search，就会返回所有记录。


$ curl 'localhost:9200/accounts/person/_search'

{
  "took":2,
  "timed_out":false,
  "_shards":{"total":5,"successful":5,"failed":0},
  "hits":{
    "total":2,
    "max_score":1.0,
    "hits":[
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"AV3qGfrC6jMbsbXb6k1p",
        "_score":1.0,
        "_source": {
          "user": "李四",
          "title": "工程师",
          "desc": "系统管理"
        }
      },
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"1",
        "_score":1.0,
        "_source": {
          "user" : "张三",
          "title" : "工程师",
          "desc" : "数据库管理，软件开发"
        }
      }
    ]
  }
}

上面代码中，返回结果的 took字段表示该操作的耗时（单位为毫秒），timed_out字段表示是否超时，hits字段表示命中的记录，里面子字段的含义如下。

total：返回记录数，本例是2条。

max_score：最高的匹配程度，本例是1.0。

hits：返回的记录组成的数组。

返回的记录中，每条记录都有一个_score字段，表示匹配的程序，默认是按照这个字段降序排列。

6.2 全文搜索

Elastic 的查询非常特别，使用自己的查询语法，要求 GET 请求带有数据体。


$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "软件" }}
}'

上面代码使用 Match 查询，指定的匹配条件是desc字段里面包含"软件"这个词。返回结果如下。


{
  "took":3,
  "timed_out":false,
  "_shards":{"total":5,"successful":5,"failed":0},
  "hits":{
    "total":1,
    "max_score":0.28582606,
    "hits":[
      {
        "_index":"accounts",
        "_type":"person",
        "_id":"1",
        "_score":0.28582606,
        "_source": {
          "user" : "张三",
          "title" : "工程师",
          "desc" : "数据库管理，软件开发"
        }
      }
    ]
  }
}

Elastic 默认一次返回10条结果，可以通过size字段改变这个设置。


$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "管理" }},
  "size": 1
}'

上面代码指定，每次只返回一条结果。

还可以通过from字段，指定位移。


$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "管理" }},
  "from": 1,
  "size": 1
}'

上面代码指定，从位置1开始（默认是从位置0开始），只返回一条结果。

6.3 逻辑运算

如果有多个搜索关键字， Elastic 认为它们是or关系。


$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query" : { "match" : { "desc" : "软件 系统" }}
}'

上面代码搜索的是软件 or 系统。

如果要执行多个关键词的and搜索，必须使用布尔查询。


$ curl 'localhost:9200/accounts/person/_search'  -d '
{
  "query": {
    "bool": {
      "must": [
        { "match": { "desc": "软件" } },
        { "match": { "desc": "系统" } }
      ]
    }
  }
}'

七、参考链接

（完）

2023.08.08: 《TypeScript 教程》发布了
长话短说，我写了一本《TypeScript 教程》，已经发布在网道，欢迎大家访问。
2023.03.21: 运维的未来是平台工程
互联网公司有一个重要工种，叫做"运维"。
2022.10.23: 最简单的 Git 服务器
程序员的代码仓库，总是需要托管一份在服务器，这样才保险，也方便使用。
2022.06.29: 云主机上手教程：轻量应用服务器体验
很多同学都希望架设自己的云服务，这就离不开云主机（cloud server）。

留言（95条）

Arther 说：

Java7也可以用。

2017年8月17日 08:08 | # | 引用

Viky 说：

求协同工作的 FileBeat、Kibana 的教程，这样日志的收集过滤才算完整吧

2017年8月17日 08:45 | # | 引用

antior 说：

这个软件，有什么用呢？

2017年8月17日 09:26 | # | 引用

zhujun24 说：

ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

2017年8月17日 09:46 | # | 引用

jose 说：

调用过es的接口蛮复杂的改天实践一下

2017年8月17日 09:47 | # | 引用

honpery 说：

觉得阮老师应该带头普及docker，docker注定是未来 - -

2017年8月17日 10:22 | # | 引用

卫书有道说：

太及时了~~~~~

2017年8月17日 11:22 | # | 引用

kaopur 说：

不错,正需要...

2017年8月17日 11:28 | # | 引用

古德说：

跟mongodb在语法上有些像。。。。

2017年8月17日 12:56 | # | 引用

xxxx 说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

2017年8月17日 12:59 | # | 引用

Macdull 说：

ES可以做数据仓库吗，或者有类似的案例吗？

2017年8月17日 13:20 | # | 引用

awen 说：

正好这两天再看相关内容，要是node平台相关介绍就更好了

2017年8月17日 16:01 | # | 引用

CODE大全说：

我的博客底层的搜索用的就是Lucene。Lucene非常强大，目前公司ELK平台用到了ElasticSearch，日数据量达到了10亿级以上。

2017年8月17日 16:02 | # | 引用

业余草说：

引用xxxx的发言：
肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

搜狗有专门的插件，可以将汉字拼音化，拼音汉字化。但是对于一些拼音相同的词汇就不好处理了。
例如：renming，中文有，任命，认命，人名等。

2017年8月17日 16:07 | # | 引用

sojson 说：

Elasticsearch 说说我的感受吧，我13年开始用，到现在4个年头了，我基本上是去一家公司，我就会改变原有的搜索或者NOSQL数据存储，改成Elasticsearch 。 Elasticsearch 有着以下特点：

第一，更新迭代快，社区活跃。文档现在着实丰富（这是选型的第一要素）。
第二，从性能上来说，确实目前来说是首选。
第三，目前第三方组件越来越多，只有你想不到的。
... ...

小白（Java）可以看看这个博客，http://www.sojson.com/blog/81.html
Ctrl + F 实现站内搜索，包括近义词，比如搜索ES，内容会出现Elasticsearch和ES的内容。脚本=JS=Javascript

2017年8月18日 13:13 | # | 引用

dreamer 说：

刚准备学一下ES，抱着碰一下运气的心态来看看这里有木有，哇，简直不要太开心。

2017年8月20日 12:25 | # | 引用

刘同周说：

在现在利用行业门槛、低级知识互相开LIVE骗钱的时代，阮神还坚持分享知识，自由传播，真是可贵。

2017年8月20日 13:29 | # | 引用

zhujun24 说：

引用业余草的发言：
搜狗有专门的插件，可以将汉字拼音化，拼音汉字化。但是对于一些拼音相同的词汇就不好处理了。例如：renming，中文有，任命，认命，人名等。

自己写过一个中文转拼音的工具，结合ES加正则应该可以实现拼音搜索+高亮显示关键词。
https://github.com/zhujun24/chinese-to-pinyin

2017年8月21日 09:30 | # | 引用

苹果虫子说：

引用xxxx的发言：
肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

有一个同义词管理，把IK的词库中的词都加上拼音的同义词，

2017年8月22日 19:18 | # | 引用

bayker 说：

引用xxxx的发言：
肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

安装ik 的拼音分词就可以了。

2017年8月28日 12:47 | # | 引用

ejzhang 说：

ElasticSearch 权威指南（中文版）
https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

2017年8月30日 08:02 | # | 引用

GlacJAY 说：

查了下 curl 的手册，加上 -d 参数后就是 POST 请求了，不是 GET。

2017年9月 6日 09:08 | # | 引用

柳汉涛说：

更新数据有个 "_update" 命令

2017年9月 6日 12:46 | # | 引用

泽云027 说：

引用GlacJAY的发言：
查了下 curl 的手册，加上 -d 参数后就是 POST 请求了，不是 GET。

ES文档中解释过这个问题。这里GET是ES里面的说法，表示是查询而非创建的“概念”；当ES的查询请求是通过json文档表达时，需要使用HTTP的POST来“实现”。

2017年9月29日 07:07 | # | 引用

fafu 说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

可以

2017年10月 9日 11:24 | # | 引用

qdice007 说：

"6.2 全文搜索"的上面一行,"表示匹配的程序" 是不是应该是 "表示匹配的程度"

2017年10月18日 13:34 | # | 引用

Jayson 说：

引用xxxx的发言：
肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

本来就有拼音分词啊，为什么不能用拼音搜索，只要在建立索引分词的时候用拼音加中文分词包，检索的时候就可以拼音中文检索啊

2017年10月23日 13:24 | # | 引用

jayson 说：

windows下用cmd运行curl的话命令都不要带单引号就可以正常运行了

2017年10月31日 19:41 | # | 引用

lance 说：

引用xxxx的发言：
肯定不可以，但是你可以增加一个字段表示啊。
比如说,中国，你再用一个 zhongguo 字段表示。
可以用自定义分词器，进行分词
搜索的时候，就可以搜索出来 zg了。

这世界有个东西叫拼音分词的插件

2017年11月 7日 15:49 | # | 引用

rick.liu 说：

阮哥,很敬佩你的人生。不过关于ES 我几个问题要问一下：
index->type->document 首先我在没在目前的版本看到关于移除type的说明，其次，官方自己人的index下也是创建了很多个type来管理不同的mapping。所以关于同一个index下多个type对应不同的mapping会影响会检索速度，这个是在哪里体现的？。其实我个也赞同一个index一个type，但实际官方也没采用这种方式（除filebeat之外，filebeat把不同的日志收到同一个index下，type为doc）.

2017年11月13日 19:27 | # | 引用

刘奇说：

阮哥你好，有个问题想请教您，项目中需要用到es来实现数据统计，现在有这样一个需求不知道该如何实现，查了一下资料，也没有看到好的解决办法

现在有这样一组数据

[

{userId:1, name: 'liu', createTime:'2017-9-16', investMount: 1000, sex: 1},

{userId:1, name: 'liu', createTime:'2017-9-16', investMount: 2000, sex: 1},

{userId:1, name: 'liu', createTime:'2017-9-16', investMount: 3000, sex: 1},

{userId:2, name: 'wang', createTime:'2017-10-1', investMount: 1500, sex: 0},

{userId:3, name: 'zhang', createTime:'2017-10-14', investMount: 1800, sex: 1},

{userId:4, name: 'zhao', createTime:'2017-10-17', investMount: 4000, sex: 1}

]

比如：现在想查询注册时间(createTime)是2017-9-15到2017-10-15日之间，投资总额(同一个userId用户investMount的总和)在2000-5000之间的男性（sex==1）的用户，最后取到符合条件的userId的集合，这种需求该如何写DSL语句呢？

我现在对es的学习能力只能想到这一步，先根据固定的条件进行查询筛选，然后再根据用户id进行分组，查询每个用户的投资总金额，但是如何使最后结果能返回符合所有条件的用户userId的集合我还是想不出来，求指教~~

{

"query": {

"bool": {

"must": {

{"term": {"sex": 1}}

"filter": {

"range": {

"createTime": {

"from": "2017-9-15",

"to": "2017-10-15"

}

"aggs": {

"group_by_userId": {

"terms": {"field": "userId"},

"aggs": {

"sum_investMount": {

"sum": { "field": "investMount"}

}

2017年11月15日 21:36 | # | 引用

Mr.J 说：

@刘奇：

三个条件，一个是时间条件，一个是性别，一个是投资额度区间对吧？你可以使用布尔查询的and将时间和性别过符合条件的先过滤出来，然后用聚合查询根据userid分组就可以了。或者使用嵌套桶的概念，也就是你说的分组，嵌套分组，每个条件分一个组。但是感觉先用过滤的话从逻辑和性能都会好点。哦，对了，如果你想返回的数据只有userID，可以使用top_hits,_source字段来控制返回的内容。我也是刚学，说的可能不对。

2017年11月20日 14:46 | # | 引用

Salamander 说：

现在比较好的ES从MySQl同步数据的工具是什么？https://github.com/jprante/elasticsearch-jdbc 这个库都好久不更新了

2017年12月 7日 16:28 | # | 引用

陈卓说：

多亏阮神！原本以为es是冷门项目，没想到大神也在用。涉猎广泛啊！学习了

2017年12月18日 15:37 | # | 引用

xiakejie 说：

2018第一签，还好评论不多，认真看完.

2018年1月 3日 21:54 | # | 引用

高振波说：

新建Index时按照官网的例子就会返回
{"error":"Content-Type header [application/x-www-form-urlencoded] is not supported","status":406}%

查了一下需要添加头文件请求： -H "Content-Type: application/json"

2018年1月24日 17:13 | # | 引用

DD 说：

大神们知道怎么新开一个节点嘛。按照教程本人启动了es照理说是一个节点，现在想再启动一个，是直接开个新的cmd然后bin里把es再跑一遍吗？

2018年1月25日 14:09 | # | 引用

lancelot 说：

windows 用curl时，除了省略所有的单引号外需要注意外，-d 后的{"name":"zhu"}要改为{\"name\":\"zhu\"}

2018年1月30日 16:21 | # | 引用

李朋印说：

阮哥你好，我想请教下，类似mysql的like查询时，会默认将要搜索的字符串进行分词分析，，如果我不想分词分析，直接搜索，，，是不是只能修改es里面字段为未分析的？是否会有相应的查询方式可以实现？？谢谢了

2018年3月 7日 11:53 | # | 引用

dingjie 说：

我在mac 里面执行了你上面的例子报错，麻烦你有时间看看
curl -X PUT 'localhost:9200/accounts' -d '
{
"mappings": {
"person": {
"properties": {
"user": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"title": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"desc": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}
}
}
}'
{"error":"Content-Type header [application/x-www-form-urlencoded] is not supported","status":406}%

2018年3月19日 18:51 | # | 引用

dignjie 说：

我解决了上面的问题但是又报了curl -H "Content-Type: application/json" -X PUT 'localhost:9200/accounts' -d '{"mappings":{"person":{"properties":{"user":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_max_word"},"title":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_max_word"},"desc":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_max_word"}}}}}'
{"error":{"root_cause":[{"type":"mapper_parsing_exception","reason":"analyzer [ik_max_word] not found for field [title]"}],"type":"mapper_parsing_exception","reason":"Failed to parse mapping [person]: analyzer [ik_max_word] not found for field [title]","caused_by":{"type":"mapper_parsing_exception","reason":"analyzer [ik_max_word] not found for field [title]"}},"status":400}%这个

2018年3月19日 19:15 | # | 引用

dignjie 说：

不好意思，原来是我安装了ki没有重启

2018年3月19日 19:29 | # | 引用

test 说：

“如果要执行多个关键词的and搜索，必须使用布尔查询。”
可以用以下方式：
"match" : {
"message" : {
"query" : "this is a test",
"operator" : "and"
}
}

2018年3月22日 14:36 | # | 引用

陈学礼说：

路途坎坷，看楼主这篇文章我要先去安装VM虚拟机，然后在虚拟机中安装linux系统，然后还要安装jdk，然后才能安装楼主的elasticsearch，这中间遇到很多问题，还好都被解决了，总算把楼主的教程看完，谢谢楼主，如果楼主还有精力，希望顺便讲解一下Spring boot + elasticsearch + mysql的用法，综合在实际操作中的步骤，谢谢楼主，楼主辛苦了

2018年3月23日 17:10 | # | 引用

虎口脱险说：

引用陈学礼的发言：
路途坎坷，看楼主这篇文章我要先去安装VM虚拟机，然后在虚拟机中安装linux系统，然后还要安装jdk，然后才能安装楼主的elasticsearch，这中间遇到很多问题，还好都被解决了，总算把楼主的教程看完，谢谢楼主，如果楼主还有精力，希望顺便讲解一下Spring boot + elasticsearch + mysql的用法，综合在实际操作中的步骤，谢谢楼主，楼主辛苦了

为什么这些东西需要楼主去讲，而不是试着自己去实践

2018年4月 2日 10:17 | # | 引用

茄盒说：

学习中， `docker` 里还好自带有 `image`, 不过这下载速度也是要了命了，加了国内镜像也没啥用

2018年4月 9日 17:17 | # | 引用

小陈说：

通俗易懂，峰哥出手果然不一样

2018年4月26日 15:15 | # | 引用

bog.king 说：

那是不是说，适合用eleatic做站内搜索引擎？

2018年5月11日 15:58 | # | 引用

兰说：

引用陈学礼的发言：
路途坎坷，看楼主这篇文章我要先去安装VM虚拟机，然后在虚拟机中安装linux系统，然后还要安装jdk，然后才能安装楼主的elasticsearch，这中间遇到很多问题，还好都被解决了，总算把楼主的教程看完，谢谢楼主，如果楼主还有精力，希望顺便讲解一下Spring boot + elasticsearch + mysql的用法，综合在实际操作中的步骤，谢谢楼主，楼主辛苦了

只是学一下你完全可以安windows版啊

2018年5月11日 16:17 | # | 引用

Jeffy 说：

http://localhost:9200/accounts/person/_search/
get:"max_score": 1,
post:"max_score": 0.25316024
为啥会这样呢?获取应该是get呀

2018年6月22日 16:04 | # | 引用

yanbin 说：

你好，我是一个技术小白，老板目前要求我把公司wiki的搜索引擎改成es。请问这个任务具有可行操作性吗？如果可以的话，请问从零开始学习操作需要大概多长时间来完成呀？

2018年7月 3日 11:46 | # | 引用

whforever 说：

讲的很清晰，解决了搞了半天的问题

2018年7月11日 19:38 | # | 引用

震灵说：

搜索貌似应该是发POST请求吧？

2018年7月14日 14:36 | # | 引用

小罗说：

新版页面看不到代码块，360浏览器

2018年7月19日 15:25 | # | 引用

omgzui 说：

由于老师使用的是5.5.1，新版的6.3.1会报错{"error":"Content-Type header [application/x-www-form-urlencoded] is not supported","status":406}

解决办法：在每个请求上加上-H 'Content-Type:application/json'即可

2018年7月22日 11:45 | # | 引用

helloworld 说：

阮神的分享精神真的值的点赞！佩服

2018年7月27日 14:13 | # | 引用

王业鑫说：

此文章通俗易懂，但是知识建立在使用的基础上，没有针对集群等做深入的分析

2018年8月13日 11:29 | # | 引用

hemingway 说：

照着你的例子练习了一遍，谢谢阮大神。

2018年8月17日 19:41 | # | 引用

梦飞扬说：

一启动就被killed了, 查了下是内存的问题, 但是怎么解决呢? 求指导

2018年8月24日 20:35 | # | 引用

德金说：

大神厉害，非常感谢，果断用起来

2018年8月28日 17:01 | # | 引用

糖太粽说：

谢谢阮神目前在学习

2018年9月20日 14:47 | # | 引用

青城之树说：

感谢条件检索用post

2018年10月15日 16:53 | # | 引用

xhigeneral 说：

引用Jeffy的发言：
http://localhost:9200/accounts/person/_search/
get:"max_score": 1,
post:"max_score": 0.25316024
为啥会这样呢?获取应该是get呀

elastic的get常常都会带body的json，而post也是可以访问的。

2018年11月21日 23:17 | # | 引用

FrozenSt 说：

引用陈学礼的发言：
路途坎坷，看楼主这篇文章我要先去安装VM虚拟机，然后在虚拟机中安装linux系统，然后还要安装jdk，然后才能安装楼主的elasticsearch，这中间遇到很多问题，还好都被解决了，总算把楼主的教程看完，谢谢楼主，如果楼主还有精力，希望顺便讲解一下Spring boot + elasticsearch + mysql的用法，综合在实际操作中的步骤，谢谢楼主，楼主辛苦了

您要的这些，一本书可都讲不完。
饭还是要一口一口吃。直接吃第三碗饭是吃不饱的。

2018年12月 5日 16:17 | # | 引用

袖长风说：

我安装了elasticsearch-6.5.4 和 analysis-ik 6.5.4;
重启：可以看到 ik plugin被加载
[2019-01-08T17:25:10,333][INFO ][o.e.p.PluginsService ] [00eqG7f] loaded plugin [analysis-ik]
然后测试：
curl -XGET "http://localhost:9200/index/_analyze?pretty" -H 'Content-Type: application/json' -d'
{
"text":"中华人民共和国MN","tokenizer": "ik_max_word"
}'
能够正常分词；
但是！建立索引，设置mapping的时候出错了
测试：
curl -XPUT http://localhost:9200/index
curl -XPOST http://localhost:9200/index/fulltext/_mapping?pretty -H 'Content-Type:application/json' -d'
{
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}

结果
{
"error" : {
"root_cause" : [
{
"type" : "mapper_parsing_exception",
"reason" : "analyzer [ik_max_word] not found for field [content]"
}
],
"type" : "mapper_parsing_exception",
"reason" : "analyzer [ik_max_word] not found for field [content]"
},
"status" : 400
}

为什么找不到分词器呢？都折磨我两天了...

2019年1月 8日 18:29 | # | 引用

艾郦湾说：

目前只有三万的数据想通过elasticsearch做搜索但是三万的数据在mysql里这里只是讲解了增删改查具体怎么样吧三万的数据能够快速的转移到elasticsearch上呢？

2019年1月16日 18:13 | # | 引用

互联网非法移民说：

@zhujun24 multi_field+拼音analyzer就可以实现

2019年1月24日 05:38 | # | 引用

mrs.utopian 说：

୧(๑•̀◡•́๑)૭，很好写得，通俗易懂最难得！

2019年2月15日 16:40 | # | 引用

晓晓说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

可以的，但是需要安装插件
具体你可以看下这个项目，https://github.com/medcl/elasticsearch-analysis-pinyin
但是已经有一段时间没更新了

2019年2月28日 10:21 | # | 引用

leefyi 说：

照着基础来了一遍。除去版本更新了以外，其它都差不多。也算体验了下～谢谢阮大

2019年3月 3日 21:44 | # | 引用

高飞说：

引用陈学礼的发言：
路途坎坷，看楼主这篇文章我要先去安装VM虚拟机，然后在虚拟机中安装linux系统，然后还要安装jdk，然后才能安装楼主的elasticsearch，这中间遇到很多问题，还好都被解决了，总算把楼主的教程看完，谢谢楼主，如果楼主还有精力，希望顺便讲解一下Spring boot + elasticsearch + mysql的用法，综合在实际操作中的步骤，谢谢楼主，楼主辛苦了

可以看官方的docker版安装啊, 简单的让你想哭... https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html

2019年3月11日 16:17 | # | 引用

efasscaed 说：

增加中文分词插件应当是如下配置文件
./bin/plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.1/elasticsearch-analysis-ik-5.5.1.zip

2019年3月15日 15:14 | # | 引用

鄉民说：

寫得真好, 一看就明白了

2019年3月21日 17:13 | # | 引用

小恩说：

最好的入门文档,没有之一

2019年3月28日 02:05 | # | 引用

小白菜不菜说：

引用omgzui的发言：
由于老师使用的是5.5.1，新版的6.3.1会报错{"error":"Content-Type header [application/x-www-form-urlencoded] is not supported","status":406}

解决办法：在每个请求上加上-H 'Content-Type:application/json'即可

没错，在6.0版本之后，请求都需要加 -H 'Content-Type:application/json'

2019年4月 8日 17:30 | # | 引用

张小智说：

提交问题
要让所有人访问是给配置文件加http.host为0.0.0.0 而不是改默认的network.host为0.0.0.0

2019年4月24日 08:15 | # | 引用

eaglex 说：

通俗易懂，适合入门，非常感谢

2019年5月 9日 16:08 | # | 引用

mrs.utopian 说：

获益良多

2019年5月13日 16:40 | # | 引用

mrzhouxiaofei 说：

阮老师，你好，2.3 Document 部分，｢不要求有相同的结构（scheme）｣中 scheme 疑为 schema？

2019年8月26日 21:07 | # | 引用

Spounds 说：

部署好es搜索之后，建立了索引，我输入'NSK 7028'，和 'NSK 702'，理论上，我搜索后面这一个关键字的时候，应该能带出前面这个关键字的输出结果吧？但是没有搜索出来，不知道为啥。有人能帮忙解答一下吗？

2019年9月19日 10:47 | # | 引用

雨雨说：

引用兰的发言：
docker 了解下～ jdk都不用你装～

只是学一下你完全可以安windows版啊

2020年4月22日 22:26 | # | 引用

wwwd 说：

很棒

2020年4月23日 22:46 | # | 引用

jack 说：

“上面代码中，设成0.0.0.0让任何人都可以访问”
这个说法是不正确的，通过任何网卡接口访问和任何人访问是两个概念。

2020年6月26日 12:13 | # | 引用

陈孔璋说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

可以，下载第三方分词器pinyin

2020年7月 2日 09:55 | # | 引用

rick 说：

跟mysql数据库同步用什么工具？

2020年8月19日 10:33 | # | 引用

aiteemo 说：

引用古德的发言：
跟mongodb在语法上有些像。。。。

可以的，有同义词扩展，需要维护

2020年8月24日 17:47 | # | 引用

saven 说：

我这里有一个需求，就是需要将关系型数据库（国产数据库）的数据抽取到elasticsearch。除了通过写code从关系型数据库查出来再导入es中，有没有什么更好，或者说更高效的方法去实现数据的导入。
logstash我试过了，但是只能提前预定好sql语句即知道要查什么。并且只能初始化同步一次，然后根据配置的定时去抽取

我的业务场景中，sql是service code中动态生成的，所以要查询的数据也不确定。并需要可以手动触发进行增量/全量抽取。请问这该如何实现，各位前辈指点指点。

2020年8月25日 11:39 | # | 引用

杨稳说：

服务器端5.4.3，写客户端使用RestHighLevelClient5.6.0，当服务端因为另外的读客户端导致查询压力比较大时，写客户端有时会卡死，应该是Apache的httpasyncclient中的连接未释放，导致请求全部在连接队列里面，恢复不了，只能重启。测试环境无法复现。这个有遇到过吗？

2020年11月23日 17:30 | # | 引用

海浪说：

感谢阮老师的分享, 点赞

2021年4月 1日 16:41 | # | 引用

helloworldの神说：

中文分词设置要这么写才不出错，查了好久哈哈，不过我是在win系统上用postman试的
{
"mappings": {
"properties": {
"user": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"title": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
},
"desc": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}
}
}
}

2021年4月15日 16:56 | # | 引用

helloworldの神说：

7.12新增数据地址要这么写，注意这个_doc
localhost:9200/accounts/_doc/1

2021年4月16日 10:23 | # | 引用

yushijie 说：

5.1 新增记录
向指定的 /Index/Type 发送 PUT 请求；
此处应该是post请求

2021年6月 9日 14:35 | # | 引用

mqray 说：

引用刘同周的发言：
在现在利用行业门槛、低级知识互相开LIVE骗钱的时代，阮神还坚持分享知识，自由传播，真是可贵。

早在4年前就看穿本质厉害

2021年7月10日 11:14 | # | 引用

贤大说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

把文章弄成拼音，再加到索引中，这样中不

2021年8月20日 18:59 | # | 引用

jtt 说：

引用zhujun24的发言：
ElasticSearch 可以做拼音搜索么？比如用 bianxingjingang 或者 bxjg 搜索到“变形金刚”。

可以啊，elastic支持同义词搜索，仅需要在安装目录config下配置同义词词典，在xml中配置同义词词典生效就行了

2021年12月28日 18:02 | # | 引用

我要发表看法

您的留言（HTML标签部分可用）

您的大名：

«-必填

电子邮件：

«-必填，不公开

个人网址：

«-我信任你，不会填写广告链接

记住个人信息？

«- 点击按钮

全文搜索引擎 Elasticsearch 入门教程

一、安装

二、基本概念

2.1 Node 与 Cluster

2.2 Index

2.3 Document

2.4 Type

三、新建和删除 Index

四、中文分词设置

五、数据操作

5.1 新增记录

5.2 查看记录

5.3 删除记录

5.4 更新记录

六、数据查询

6.1 返回所有记录

6.2 全文搜索

6.3 逻辑运算

七、参考链接

文档信息

相关文章

留言（95条）

我要发表看法