SQLite的全文搜索与符号化问题

dbhelpera 2012-06-01

20130213更正：

下面的'"明日 *"'应改为'明日 *'（把双层引号改为单层引号），将获得更多匹配结果。

20130321：

还可以在where条件中加入like或glob（同时使用match和like）以减少结果数量（或者加入其它条件）

Android自带的sqlite3通过fts3（是fulltext search engine 3的缩写？）模块支持全文搜索。但官方文档说只支持三种符号化，而且只支持完全和前缀匹配（也就是说，分割的符号只能完全或前方匹配搜索字符串），默认是不支持后缀和中缀搜索。如果要解决这个问题，需要做一些特殊处理。我看到网上的讨论，大概有以下方法：

（1）创建一个反转字符串的列，就可以实现后缀匹配

（2）使用类似MeCab的分词库，把目标串符号化。

不过我觉得这两种方法都是有一定的限制。方法二虽然比较好，但我觉得还是有点复杂。

我觉得符号化（分词）不一定要很精确，比如”我是中国人“只要符号化为”我是中国人 “就可以了。

所以我在创建符号化列时使用这样的逻辑（用Java处理）：

private static String tokenize(String str) {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			sb.append(str.charAt(i));
			sb.append(' ');
		}
		return sb.toString();
	}

假设创建的符号化列为word_tokenize，搜索字符串为”明日“，那么查询语句是（注意搜索的非英文字符串”明日“也要被符号化）

select word, meaning, dict_id from words where word_tokenize match '"明 日 *"' order by rowid;

不过这样做的坏处是很明显的，因为英文单词会被分割成可以任意连结，而且搜索速度会减慢。

或者这样符号化会好些——

private static String tokenize(String str) {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < str.length(); i++) {
			char c = str.charAt(i);
			sb.append(c);
			if (c > 256) {
				sb.append(' ');
			}
		}
		return sb.toString();
	}

: dbhelpera

相关推荐

全文搜索引擎 Elasticsearch

全文搜索属于最常见的需求，开源的Elasticsearch是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Ela

yanweiqi 0喜欢 / 0评论 2020-06-25

【ElasticSearch】全文搜索（七）

相关性它是评价查询与其结果间的相关程度，并根据这种相关程度对结果排名的一种能力，这种计算方式可以是TF/IDF方法、地理位置邻近、模糊相似，或其他的某些算法。分词它是将文本块转换为有区别的、规范化的token的一个过程，目的是为了创建倒排索引以及查

molong0 0喜欢 / 0评论 2020-06-13

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 0喜欢 / 0评论 2020-05-16

ElasticSearch结构化搜索和全文搜索

过滤器很重要，因为它们执行速度非常快，不会计算相关度而且很容易被缓存。请尽可能多的使用过滤式查询。term 查询会查找我们指定的精确值。它接受一个字段名以及我们希望查找的数值：{. 通常当查找一个精确值的时候，我们不希望对查询进行评分计算。只希望对文档进行

wenwentana 0喜欢 / 0评论 2020-02-21

Django 博客实现简单的全文搜索

搜索是一个复杂的功能，但对于一些简单的搜索任务，我们可以使用 Django Model 层提供的一些内置方法来完成。博客文章通常包含标题和正文两个部分。整个搜索的过程如下：。服务器接收到用户输入的搜索关键词 “django” 后去数据库查找文章标题和正文中

明瞳 0喜欢 / 0评论 2020-01-10

在 Emacs 中集成 Recoll 全文搜索

间多，搜索要在 Emacs 和 Recoll 图形界面中来回切换，很不方便。而且，如果本地文件。时找东西直接开 Recoll 搜索，如果没有的话可以一键切到 Google 搜索结果。"Search for a string in the reco

kekenow 0喜欢 / 0评论 2019-10-22

Solr实现全文搜索

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。-rw-r--r--. 1 root root 8

lhc0 0喜欢 / 0评论 2019-07-11

搜索引擎之全文搜索算法功能实现（基于Lucene）

之前做去转盘网的时候，我已经公开了非全文搜索的代码，需要的朋友希望能够前去阅读我的博客。本文主要讨论如何进行全文搜索，由于本人花了很长时间设计了新作：观点，观点对全文搜索的要求还是很高的，所以我又花了不少时间研究全文搜索，你可以先体验下：点我搜索。废话也不

繌子 0喜欢 / 0评论 2017-12-18

全文搜索Lucene——之倒排算法

返回的结果没有匹配度的概念，比如在所有文章里索引一篇想要的文章，可能是希望搜索的关键词在文章中出现的次数越多越是我想要的结果。中文单词间是连在一起的需要特殊的分词处理。　　以上就是lucene索引结构中最核心的部分。

繌子 0喜欢 / 0评论 2014-12-10

全文搜索服务器：Solr 4.0

solr是我上周才接触的，一开始的时候很陌生，不知道从哪里开始，我从网上看了很多资料，并加以实践。我一开始就用最新版的solr 4.0，这个版本今年7月份才更新，而且改动幅度比较大，分词器也是刚刚才出了能兼容solr 4.0的版本，所以中文的参考资料很少，

随手一记 0喜欢 / 0评论 2013-08-13

Lucene学习笔记之三：全文搜索详解

全文搜索详解主要是对其的组成部分和流程做一个详细的说明，有助于我们接下来学习lucene。在Lucene学习笔记之一：信息检索与全文检索这篇文章中，我们已经说过，全文搜索是按索引来找，效率高,也就是要建立索引，然后进行搜索的过程。在Lucene学习笔记之二

exitzhang 0喜欢 / 0评论 2012-11-22

Laravel 使用 scout 集成 elasticsearch 做全文搜索

安装需要的组件composer require tamayo/laravel-scout-elastic. composer require laravel/scout如果composer require laravel/scout 出现报错Using v

YEEHOLIC 0喜欢 / 0评论 2019-06-29

如何使用ABAP Restful API进行代码的全文搜索

使用这个代码全文搜索的前提条件，是在事务码SFW5里激活业务功能：SRIS_SOURCE_SEARCH. 意思是搜索host指定的服务器上所有包含了字符串Jerry的ABAP代码。随便验证几个结果，证明搜索是准确的。

fanix 0喜欢 / 0评论 2019-06-28

APACHE Lucene 的使用

用了下Lucene的全文搜索，这次的使用没多大复杂度，只是针对数据库的检索，先看下理论的东西，加固下自己的理论思想。全文搜索是以文本为检索对象，找出含有指定词汇的文本。全面、准确、和快速是衡量全文搜索系统的关键指标。在信息检索工具中，全文搜索最通用性和实用

zhengsj 0喜欢 / 0评论 2013-01-27

在Django中优化 Postgres 全文搜索

对于小型数据集，默认配置执行得很好，但是当数据增长时，默认的搜索配置就会变得非常慢，我们需要启用某些优化来保持查询的速度。本文将引导你设置Django和Postgres、索引示例数据以及执行和优化全文搜索。这些示例是经过Django + Postgres设

EdShao 0喜欢 / 0评论 2019-06-27

搜索引擎选择： Elasticsearch与Solr，elasticsearch是什么

Elasticsearch简介Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎，可以说Lucene是当

看上去很美 0喜欢 / 0评论 2019-06-27

搜索引擎之全文搜索算法功能实现（基于Lucene）

之前做去转盘网的时候，我已经公开了非全文搜索的代码，需要的朋友希望能够前去阅读我的博客。本文主要讨论如何进行全文搜索，由于本人花了很长时间设计了新作：观点，观点对全文搜索的要求还是很高的，所以我又花了不少时间研究全文搜索，你可以先体验下：点我搜索。废话也不

PasserbyX 0喜欢 / 0评论 2019-06-26

DBSight 让你快速建立数据库全文搜索！

大家好，我是DBSight的开发者。这是一个基于Lucene的快速搭建数据库搜索的平台。希望大家给以指正。它主要能从一两个SQL出发，取出数据库内容，建立Lucene索引，加上facet搜索等许多功能，并能实现搜索平台的自动无人管理，免除了很多重新发明轮子

especialjie 0喜欢 / 0评论 2010-03-08

庖丁解牛的Lucene2.4全文搜索代码

private static final String indexPath = "f/何明/heming/le";

XHuiLin 0喜欢 / 0评论 2009-04-24

毕业设计，你让我心痛啊！

毕业设计题目是《基于ORACLE全文搜索技术的研究》，题目要求如下：引用全文搜索技术已经成为目前网络应用中的一个关键技术之一。本课题要求分析和研究现阶段的全文搜索技术；并利用ORACLE数据库作为案例，对其全文搜索技术的分析与研究，在分析这些搜索技术的基础

especialjie 0喜欢 / 0评论 2009-04-14

HubbleDotNet开源全文搜索数据库项目--技术详解

HubbleDotNet开源全文搜索数据库项目--技术详解 HubbleDotNet 简介。HubbleDotNet 和 Lucene.net 性能对比测试。HubbleDotNet 和 Lucene.Net 匹配相关度的比较。用户权限--功能规划中。Hu

Franklyn 0喜欢 / 0评论 2011-07-21

每一个Java工程师都应该掌握的全文搜索引擎

但是该 Solr 搜索云项目不稳定，经常查询不出来数据，需要手动全量同步，而且是其他团队在维护，依赖性太强，导致 Solr 服务一出问题，我们的项目也基本瘫痪，因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层，如果 Solr 搜索出问题，自动切换到

陈佳惠 0喜欢 / 0评论 2019-06-15

全文搜索引擎选 ElasticSearch 还是 Solr？

什么是全文搜索为什么要用全文搜索搜索引擎Lucene，Solr，ElasticSearch ？Elasticsearch vs Solr 的选择总结最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查

雨林星空 0喜欢 / 0评论 2019-05-04

MySQL中文全文搜索

SELECT * FROM v9_search WHERE `siteid`= '1' AND `typeid` = '3' AND MATCH AGAINST ;4，字段'data'中的数据为空格分隔的中文分词，例如：韩天衡先生绘画韩天衡绘画先生

sofast 0喜欢 / 0评论 2017-03-08

全文搜索引擎选 ElasticSearch 还是 Solr？

什么是全文搜索为什么要用全文搜索搜索引擎Lucene，Solr，ElasticSearch ？Elasticsearch vs Solr 的选择总结最近项目组安排了一个任务，项目中用到了基于 Solr 的全文搜索，但是该 Solr 搜索云项目不稳定，经常查

ach 0喜欢 / 0评论 2019-04-03

初识Lucene 4.5全文搜索

近期想研究下lucene，但网络上的教程大多都是lucne 3.x版本的讲解。可是lucene版本的更新速度快的惊人，目前已经到了4.8版了，只好去查阅官方文档。虽然英文不大好，但稍微对比了下发现3.x版本至4.x版本的修改非常之大。接下来我就以4.5版来

编码之路 0喜欢 / 0评论 2014-07-21

Rails 中的全文搜索

介绍在Web应用中，搜索数据记录是一个常见的需求。最常见的一个需求就是允许用户从大量的数据记录中快速访问他们想要的数据。虽然可以使用简单的SQL查询应对这样的查询需求，但有时，更有效的是使用搜索引擎。Solr是Apache Lucene项目中的一个流行的搜

EricNet 0喜欢 / 0评论 2014-05-07

在Python的Flask框架中实现全文搜索功能

灰常不幸的是，关系型数据库对全文检索的支持没有被标准化。不同的数据库通过它们自己的方式来实现全文检索，而且SQLAlchemy在全文检索上也没有提供一个好的抽象。据我说知只有一个Whoosh提供了Flask的扩展，它是用Python语言写的全文检索引擎。使

Jeffreychu 0喜欢 / 0评论 2019-04-19

基于ASP.NET的lucene.net全文搜索实现步骤

在做项目的时候，需求添加全文搜索，选择了lucene.net方向，调研了一下，基本实现了需求，现在将它分享给大家。理解不深请多多包涵。在完成需求的时候，查看的大量的资料，本文不介绍详细的lucene.net工程建立，只介绍如何对文档进行全文搜索。使用luc

momomoniqwer 0喜欢 / 0评论 2013-02-01

Mysql全文搜索match against的用法

对于大的数据库，将数据装载到一个没有 FULLTEXT 索引的表中，然后再使用 ALTER TABLE 创建索引，这将是非常快的。MySQL是通过match()和against()这两个函数来实现它的全文索引查询的功能。match()中的字段名称要和f

mysql0 0喜欢 / 0评论 2019-04-04

mysql全文搜索 sql命令的写法

running MySQL as root'); 所以,到这里你应该会mysql 英文全文搜索了. 请注意一个问题. 一些词在全文搜索中会被忽略： * 任何过于短的词都会被忽略。全文搜索所能找到的词的默认最小长度为 4个字符。* 停止字中的词会被忽略。**

vimysql 0喜欢 / 0评论 2019-04-03

Mongodb实战之全文搜索功能

众所周知在传统的关系型数据库中，我们通常将数据结构化，通过一系列表关联、聚合来查询我们所需的结果。而在非结构化的数据中，缺少这种预定义的结构，因而如何快速查询定位到我们所需要的结果，不是一件容易的事。Mongodb作为一种NoSQL数据库，非常适合存储和管

LinoHngJie 0喜欢 / 0评论 2019-04-02

详细讲解PostgreSQL中的全文搜索的用法

开发Web应用时，你经常要加上搜索功能。甚至还不知能要搜什么，就在草图上画了一个放大镜。搜索是项非常重要的功能，所以像elasticsearch和SOLR这样的基于lucene的工具变得很流行。但使用这些大规模“杀伤性”的搜索武器前，你可能需要来点轻量级的

88334355 0喜欢 / 0评论 2019-04-02

Laravel使用scout集成elasticsearch做全文搜索的实现方法

本文介绍了Laravel使用scout集成elasticsearch做全文搜索的实现方法，分享给大家，具体如下：。composer require laravel/scout如果composer require laravel/scout 出现报错。You

何超杰 0喜欢 / 0评论 2018-11-30

PHP在innodb引擎下快速代建全文搜索功能简明教程【基于xunsearch】

本文实例讲述了PHP在innodb引擎下快速代建全文搜索功能的方法。分享给大家供大家参考，具体如下：。需要准备的设备：Liunx操作系统，PHP环境。这里介绍一个国人开发的搜索引擎开源项目―讯搜，它分为：索引服务器和搜索服务器。cd xunsearch-f

PHP100 0喜欢 / 0评论 2019-03-28

php利用scws实现mysql全文搜索功能的方法

本文实例讲述了php利用scws实现mysql全文搜索功能的方法。分享给大家供大家参考。scws这样的中文分词插件比较不错,简单的学习了一下,它包涵一些专有名称、人名、地名、数字年代等规则集合,可以直接将语句按这些规则分开成一个一个关键词,准确率在90%-

PHP100 0喜欢 / 0评论 2019-03-28

php启用sphinx全文搜索的实现方法

本文实例讲述了php启用sphinx全文搜索的实现方法。分享给大家供大家参考。在编译安装 sphinx 的时候出现很多中文乱码,最后抛出错误卡住了,我去到官方直接下载一个 rpm 包,安装就很爽,具体错误不想研究了,忙开发呢.安装两个包,一个是 mmseg

PHP100 0喜欢 / 0评论 2019-03-28

php 全文搜索和替换的实现代码

PHP100 0喜欢 / 0评论 2019-03-27

mysql 全文搜索技巧

全文索引在MySQL中是一个FULLTEXT类型索引。FULLTEXT索引用于MyISAM表，可以在CREATETABLE时或之后使用ALTERTABLE或CREATEINDEX在CHAR、VARCHAR或TEXT列上创建。将数据装载到一个已经有FULLT

PHP100 0喜欢 / 0评论 2019-03-27

mysql 搜索之简单应用

MySQL针对这一问题提供了一种基于内建的全文查找方式的解决方案。在此，开发者只需要简单地标记出需要全文查找的字段，然后使用特殊的MySQL方法在那些字段运行搜索，这不仅仅提高了性能和效率，而且实现了更高质量的搜索，因为MySQL使用自然语言来智能地对结果

PHP100 0喜欢 / 0评论 2019-03-27

全文搜索和替换

phpexec;if {if {echo "Possibly no files were found with $oldword in them<BR>\n";}echo "OS Error: $errorCode

编程10000问 0喜欢 / 0评论 2019-03-27

全文搜索和替换

echo "Possibly no files were found with $oldword in them<BR>\n";

PHPING 0喜欢 / 0评论 2016-10-29