RediSearch的简单使用与总结

news/2024/9/21 19:03:45

前言

之前就有考虑过想要研究下RediSearch,号称高性能全文索引的功能,这几天闲来无事调研了一番。

RediSearch 介绍

RediSearch 是 Redis Labs 提供的一款强大且高效的搜索和全文索引引擎。它是一个基于 Redis 的模块,允许用户在 Redis 数据库中进行复杂的搜索和全文检索操作,而无需将数据导出到其他搜索引擎。

推荐使用场景

RediSearch适合简单且高效的分词搜索场景。
针对较为复杂的全文搜索RediSearch肯定是不如ES这种专业的。但假设有一批地址信息,以医院地址举例,省市县地址这些基本字段,想要快速搜索对应地址一般如下解决方案。

  • 使用Like进行模糊匹配:太过鸡肋,(比如数据是 【上海市徐汇区宜山路第六人民医院】,搜索关键词是【上海第六】肯定是搜索不到数据的)。
  • ES全文索引: 大材小用,杀鸡焉用牛刀
  • 自实现分词和倒排索引,最不推荐!吃力不讨好,尽管市面上有很多中文分词器和全文索引的插件。

这时候就很适合使用RediSearch,既可以实现简单的(倒排索引)。又不需要使用ES那么庞大的中间件,集成起来也相对简单。

RediSearch安装

RediSearch 官方推荐的 Docker 方式来安装并启动。

docker run --name redisearch -p 16379:6379 -v redis-data:/data redis/redis-stack-server:latest
  • --name redisearch 对容器进行命名
  • -p 16379:6379宿主机16379映射了容器6379端口
  • -v redis-data:/data 数据卷映射
  • redis/redis-stack-server:latest 表示采用redis-stack-server的最新版本
    然后进入容器中查看是否存在对应模块
docker exec -it redisearch redis-cli

如下图

RediSearch 创建索引和文档

创建索引


FT.CREATE hospitalIndex ON HASH PREFIX 1 hospital: LANGUAGE  "chinese" SCHEMA id NUMERIC province TEXT SORTABLE city TEXT SORTABLE name TEXT SORTABLE
  • FT.CREATE hospitalIndex 1.0 表示创建一个名为hospitalIndex的全文索引
  • ON HASH表示数据结构为Hash
  • PREFIX 1 hospital: 表示是Key是以hospital:为前缀的数据
  • LANGUAGE "chinese指定数据的语言为中文。这对文本分析和分词很重要,因为针对不同语言有对应的分词器。
  • SCHEMA id NUMERIC province TEXT SORTABLE city TEXT SORTABLE name TEXT SORTABLE 表示字段结构是 id,provice city name 其中id为数字类型,其他字段为文本参与索引

添加索引文档

ft.add hospitalIndex hospital:1 1.0 language "chinese" fields id 1 province "上海市" city "上海市" name "上海市第六人民医院"
ft.add hospitalIndex hospital:2 1.0 language "chinese" fields id 2 province "上海市" city "上海市" name "上海交通大学医学院附属瑞金医院"
ft.add hospitalIndex hospital:3 1.0 language "chinese" fields id 3 province "上海市" city "上海市" name "上海交通大学医学院附属新华医院"
ft.add hospitalIndex hospital:4 1.0 language "chinese" fields id 4 province "上海市" city "上海市" name "上海交通大学医学院附属上海儿童医学中心"
ft.add hospitalIndex hospital:5 1.0 language "chinese" fields id 5 province "上海市" city "上海市" name "复旦大学附属中山医院"
  • FT.ADD hospitalIndex hospital:1 1.0: 将一个文档 hospital:1 添加到 hospitalIndex 索引中,评分为 1.0。
  • LANGUAGE "chinese": 指定文档的语言为中文。一定要指定对应的语言,这里会采用中文默认的分词器
  • FIELDS: 后面跟着一系列字段和对应的值。

查询

ft.search [index] [keywords] language [lang]

从索引名Index中查找对应keywords,而lang为对应语言,默认会按照语言对应的分词器进行分词。

示例1

ft.search hospitalIndex "上海市医院" language "chinese" 

示例2

ft.search hospitalIndex "上海市交通大学新华医院" language "chinese" 

示例3

ft.search hospitalIndex "附属医院" language "chinese" 

不足之处

示例1

尽快已经基本实现了全文索引,但由于RediSearch中的中文分词器还是有些局限性的。

比如下的几个搜索:

如上图所示,上海市第六 是可以搜索到数据的,但 上海第六 就无法搜索到数据了,这是因为RediSearch中的中文分词器对应拆分不好

示例2

如下图

上面的几个搜索例子其实不够恰当
不过我想强调的主要的目的还是 针对如果分词中的部分词性出现了【专业词】(比如:阿莫西林) 或者类似【第六人】这种现象,RediSearch没办法正确分词的。 是需要专业的分词器和自定义字典的

示例3

还有个问题是RediSearch中分词对应拆词颗粒度过于细,针对短语的搜索是不够的,聚合搜索效果很差,因为我这次的演示数据是地址数据所以不好展示处出来。
具体可以参考地址

关于RediSearch无法正常执行模糊匹配的解决方案

RediSearch 中默认的中文分词器可能会根据版本的不一致有差异,一般都是 Friso

当然 RediSearch是支持自定义中文分词器和自定义字典的,不过那就是另外的话题了,这里就不提了。
具体可以参考官网:https://redis.io/docs/latest/commands/ft.dictadd/

删除索引

ft.drop hospitalIndex

RediSearch 总结

角度 优势 缺点
场景 适合简单的数据类型和文本 不适合复杂的数据类型,比如富文本,长文本
集成难度 简单指令, 方便集成 Redis知识储备,(这个不算什么成本吧)
执行效率 基于内存,搜索速度很快 分词效果不够理想,数据量大会影响性能
社区生态 - 社区目前过于小众
部署 简单搭建,方便集成,支持集群与横向扩展 有一定的不稳定性,毕竟很少见到用于产线环境下。

参考地址

  1. RediSearch/RediSearch
  2. Redis Real-Time Search, Querying, & Indexing
  3. RediSearch 高性能的全文搜索引擎
  4. 关于RediSearch无法正常执行模糊匹配的解决方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/31609.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

ShowDoc:打造IT团队高效协作的文档与API管理神器

ShowDoc IT团队高效协作的文档与API管理介绍 ShowDoc:一款适用于IT团队的知识文档与API管理工具 ShowDoc 是一款专为IT团队设计的知识文档和API管理工具,它允许用户通过Markdown语法轻松地创建和编辑美观的API文档、数据字典文档、技术文档,甚至在线Excel文档。ShowDoc支持多…

广东各高校2023/2022/2021近三年录取分数线(excel文件下载)

为了帮助考生更好地进行志愿填报,更好的对数据筛选,故整理 广东各高校2023/2022/2021三年录取分数excel文件, 部分数据及文件见下图, 数据根据历年录取分数线汇总,仅供参考, 详细请登陆各高校网站查询。 如有需要,可根据步骤下载文件:文件列表及数据如下图所示,真实有…

【论文笔记-44~】多语言实体链接

~2011 1. Cross-Language Entity Linking 文章核心观点: 本文介绍了一种新的跨语言实体链接任务,旨在将不同语言的文档中的命名实体与英文知识库中的实体描述进行匹配。作者提出了一种利用统计音译和跨语言信息检索的方法来解决这一任务,并在21种语言上进行了实验验证。实验…

鸿蒙HarmonyOS实战-Stage模型(UIAbility组件)

🚀一、UIAbility组件 🔎1.概述 HarmonyOS中的Stage模型是一种基于UIAbility组件的应用程序架构。UIAbility是HarmonyOS系统中用于构建用户界面的基本组件之一。它负责处理应用程序界面的显示和交互。 在Stage模型中,每个应用程序都有一个或多个Stage。Stage是一个独立的界…

ctfshow-菜狗杯-web

菜狗杯 一言既出 打开题目就是一个朴实无华的php代码我们分析一下: 需要传入一个num的参数,使num==114514,后面经过intval转化后要num==1919810,否则直接结束进程 这下就有点难办了,但其实我们只要其实闭合一下这个assert函数,不让这个结束的条件成立就行,payload如下 nu…

地产新模式,这次真成了

当前房地产的主线,除了「救市」,还有很重要的是「改革」。怎么改?一是租售并举,建立保障住房体系。也就是我们说过很多次的,供给侧结构改革。保障性租赁住房还在加速。二是从“大开发”模式,向“大资管”模式转型。也就是对存量物业的改造升级、运营升级、经营模式升级。…

开发板登录返回以及退出设计

IO编程 开发板登录返回以及退出设计/****************************************************************************** file name: 2024-05-14_main.c* author : tongyaqi1110@163.com* date : 2024-05-14* function : 在LCD上显示并触摸开发板登录返回以及退出设计* n…

机器学习之朴素贝叶斯

朴素贝叶斯是一种基于贝叶斯定理的分类算法,常用于解决文本分类和垃圾邮件过滤等问题。它的"朴素"体现在对每个特征之间的条件独立性的假设,即假设给定目标值的情况下,每个特征都是相互独立的。尽管这个假设在实际问题中并不总是成立,但朴素贝叶斯的简单性和高效…