RediSearch使用教程_编程知识分享|编程教程|资源下载|源码下载

前言

之前就有考虑过想要研究下RediSearch，号称高性能全文索引的功能，这几天闲来无事调研了一番。

RediSearch 是 Redis Labs 提供的一款强大且高效的搜索和全文索引引擎。它是一个基于 Redis 的模块，允许用户在 Redis 数据库中进行复杂的搜索和全文检索操作，而无需将数据导出到其他搜索引擎。

RediSearch 官方推荐的 Docker 方式来安装并启动。

docker run –name redisearch -p 16379:6379 -v redis-data:/data redis/redis-stack-server:latest

docker exec -it redisearch redis-cli

如下图


	FT.CREATE hospitalIndex ON HASH PREFIX 1 hospital: LANGUAGE “chinese” SCHEMA id NUMERIC province TEXT SORTABLE city TEXT SORTABLE name TEXT SORTABLE

FT.CREATE hospitalIndex 1.0 表示创建一个名为hospitalIndex的全文索引
ON HASH表示数据结构为Hash
PREFIX 1 hospital: 表示是Key是以hospital:为前缀的数据
LANGUAGE "chinese指定数据的语言为中文。这对文本分析和分词很重要，因为针对不同语言有对应的分词器。
SCHEMA id NUMERIC province TEXT SORTABLE city TEXT SORTABLE name TEXT SORTABLE 表示字段结构是 id，provice city name 其中id为数字类型，其他字段为文本参与索引

	ft.add hospitalIndex hospital:1 1.0 language “chinese” fields id 1 province “上海市” city “上海市” name “上海市第六人民医院”
	ft.add hospitalIndex hospital:2 1.0 language “chinese” fields id 2 province “上海市” city “上海市” name “上海交通大学医学院附属瑞金医院”
	ft.add hospitalIndex hospital:3 1.0 language “chinese” fields id 3 province “上海市” city “上海市” name “上海交通大学医学院附属新华医院”
	ft.add hospitalIndex hospital:4 1.0 language “chinese” fields id 4 province “上海市” city “上海市” name “上海交通大学医学院附属上海儿童医学中心”
	ft.add hospitalIndex hospital:5 1.0 language “chinese” fields id 5 province “上海市” city “上海市” name “复旦大学附属中山医院”

FT.ADD hospitalIndex hospital:1 1.0: 将一个文档 hospital:1 添加到 hospitalIndex 索引中，评分为 1.0。
LANGUAGE "chinese": 指定文档的语言为中文。一定要指定对应的语言，这里会采用中文默认的分词器。
FIELDS: 后面跟着一系列字段和对应的值。

ft.search [index] [keywords] language [lang]

从索引名Index中查找对应keywords，而lang为对应语言，默认会按照语言对应的分词器进行分词。

ft.search hospitalIndex “上海市医院” language “chinese”

ft.search hospitalIndex “上海市交通大学新华医院” language “chinese”

ft.search hospitalIndex “附属医院” language “chinese”

尽快已经基本实现了全文索引，但由于RediSearch中的中文分词器还是有些局限性的。

比如下的几个搜索：

如上图所示，上海市第六 是可以搜索到数据的，但 上海第六 就无法搜索到数据了，这是因为RediSearch中的中文分词器对应拆分不好

如下图

上面的几个搜索例子其实不够恰当
不过我想强调的主要的目的还是 针对如果分词中的部分词性出现了【专业词】(比如:阿莫西林) 或者类似【第六人】这种现象，RediSearch没办法正确分词的。是需要专业的分词器和自定义字典的

还有个问题是RediSearch中分词对应拆词颗粒度过于细，针对短语的搜索是不够的，聚合搜索效果很差，因为我这次的演示数据是地址数据所以不好展示处出来。
具体可以参考地址

RediSearch 中默认的中文分词器可能会根据版本的不一致有差异，一般都是 Friso

当然 RediSearch是支持自定义中文分词器和自定义字典的，不过那就是另外的话题了，这里就不提了。
具体可以参考官网：https://redis.io/docs/latest/commands/ft.dictadd/

ft.drop hospitalIndex