bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

Bitmap

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

还可以扩展成2-Bitmap.

Trie树

问题：有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。

方案：其解决方法是：用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），即所有字符的总长度。（Trie一次插入的时间是其长度，一次查找时间是树的高度）

也可以用来字符串去重、统计top K.

数据库索引

见另一篇数据库索引

倒排索引（Inverted index）

适用范围：搜索引擎，关键字查询

基本原理及要点：为何叫倒排索引？一种索引方法，用来查找一个单词出现在哪些文档的一种映射。

以英文为例，下面是要被索引的文本：

T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我们就能得到下面的反向文件索引：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
如果要查找“what is it”，就是求"what","is"和"it"对应集合的交集。

外排序

问题：如何给磁盘文件排序

描述：给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数），且其中每个数都小于等于n，n=10^7。

输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。

方案一：外排序

外排序的一个例子是外归并排序（External merge sort），它读入一些能放在内存内的数据量，在内存中排序后输出为一个顺串（即是内部数据有序的临时文件），处理完所有的数据后再进行归并。比如，要对900 MB的数据进行排序，但机器上只有100 MB的可用内存时，外归并排序按如下方法操作：
读入100 MB的数据至内存中，用某种常规方式（如快速排序、堆排序等方法）在内存中完成排序。
将排序完成的数据写入磁盘。
重复步骤1和2直到所有的数据都存入了不同的100 MB的块（临时文件）中。在这个例子中，有900 MB数据，单个临时文件大小为100 MB，所以会产生9个临时文件。
读入每个临时文件（顺串）的前10 MB（ = 100 MB / (9块 + 1)）的数据放入内存中的输入缓冲区，最后的10 MB作为输出缓冲区。（实践中，将输入缓冲适当调小，而适当增大输出缓冲区能获得更好的效果。）
执行九路归并算法，将结果输出到输出缓冲区。一旦输出缓冲区满，将缓冲区中的数据写出至目标文件，清空缓冲区。一旦9个输入缓冲区中的一个变空，就从这个缓冲区关联的文件，读入下一个10M数据，除非这个文件已读完。这是“外归并排序”能在主存外完成排序的关键步骤 -- 因为“归并算法”(merge algorithm)对每一个大块只是顺序地做一轮访问(进行归并)，每个大块不用完全载入主存。

方案二：位图

10^7需要10^7bit，记录是否出现过（其实就是bool vis[1e7+5]）

此问题用位图的方案分为以下三步进行解决：

第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。

经过以上三步后，产生有序的输出文件。

分布式处理之MapReduce

MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个归并排序。

例如，对于前面提到的倒排索引，

倒排索引：Map函数分析每个文档输出一个(词,文档号)的列表，Reduce函数的输入是一个给定词的所有（词，文档号），排序所有的文档号，输出(词,list（文档号）)。所有的输出集合形成一个简单的倒排索引，它以一种简单的算法跟踪词在文档中的位置。

参考链接：

2. 维基百科-外排序

3. CSDN_JULY-MapReduce技术的初步了解与学习

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

Bitmap

Trie树

倒排索引（Inverted index）

外排序

方案一：外排序

方案二：位图

分布式处理之MapReduce

lixiaotao

相关推荐

倒排索引

Elasticsearch系列---shard内部原理

全文搜索Lucene之倒排索引

Elasticsearch系列---聚合查询原理

搜索引擎之倒排索引浅析

搜索引擎之倒排索引浅析

Elasticsearch系列---shard内部原理

elasticsearch

Lucene倒排索引原理

Solr原理

搜索引擎中的爬虫和倒排索引技术

海量数据处理专题7——倒排索引(搜索引擎之基石)

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

Lucene倒排索引原理

Elasticsearch-倒排索引

[转]Lucene倒排索引原理

Spring Boot 中使用 Java API 调用 lucene

MongoDB优化之倒排索引

Lucene倒排索引简述细说倒排索引构建

大数据技术学习笔记：倒排索引

python 实现倒排索引的方法

Information Retrieval 倒排索引学习笔记

elasticsearch学习笔记-倒排索引以及中文分词

ElasticSearch入门第八篇：存储