ach 2010-07-15
附录.术语
B:
半结构化数据(semi-structureddata),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格理论模型的关系数据库的数据相比,这种HTML标注带来的结构性又要弱很多,因此人们称Web上的数据为半结构化数据,这是Web上数据的基本特点。
布尔模型(booleanmodel),在信息检索领域,不同的场合有不同的含义。当我们讨论用户提交查询的时候,指的是为形成最终查询结果集合,由一个查询的各个成分对查询结果子集之间所要求的一种运算关系;而在讨论文档比较的向量空间模型中,布尔模型指的是构成一个文档向量的各个分量只取1和0两个值,分别代表对应特征项的出现与否。
C:
查全率(recall),判断检索系统质量的一种度量,表示系统所检索到的与查询相关的文档数占与查询相关的总文档数的百分比。
查询(query),用户使用信息系统提供的输入语言和规则对自己信息需求的一种表达。常用的输入语言包含关键词规范和一些布尔连接符。
查准率(precision),判断检索系统质量的一种度量。系统所检索到的与查询相关的文档数占检索出的所有文档数的百分比,即反映检索结果“正确性”的度量。
词典(vocabulary),文档(或文档集合)中所有不同词项的集合。
词频(termfrequency,tf或TF),TF(i,j)是指一个词项ti在一篇文档dj中出现的次数。
D:
代理(agent),或称代理程序,在应用中,接收到用户的请求后,能代表用户完成任务并返回结果,但不受用户监督的程序、进程或部分系统。在中,代理程序用于从存档或信息库中搜索与用户所给主题词相关的内容,所以有时又称为智能代理(IntelligentAgent)。
倒排文件(invertedfile),组织和索引文件,以便于检索的一种方法。在该方法中,一个关键字的集合是基础,该集合中每一个关键字对应一串记录项,其中每一项包含一个文档编号、该关键字在该文档中出现的情况等信息。
倒置文档频率(inverseddocumentfrequency,idf或IDF),通常IDF(ti)取值为,其中N是所有文档的总数,n)/log(inNi是在N个文档中包含词项ti的文档数。
动态网页(dynamicWebpage),需要通过提交查询信息才能获取的网页。
动态摘要(dynamicabstract),做文档摘要的一种方法。对于搜索引擎来说,就是在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户。由于一篇文档会含有不同的查询词,因此动态摘要技术可能把同一个文档形成不同的摘要文字。
G:
共有词汇假设(sharedbagofwords),信息检索技术的一个最基本假设,即认为文档的含义可以由它所包含的关键词的集合来表达。
H:
HTML(hypertextmarkuplanguage),超文本标记语言,是Web的关键技术之一,它为ASCII格式的超文本文档提供了一种标准表述方式。
缓存(cache),在计算机科学领域经常出现的一个概念,其基本含义是利用局部性原理实现的一种匹配两种不同速度的中间机制。它可以出现在CPU和RAM中间,也可以出现在应用系统的I/O操作与磁盘之间。在搜索引擎中,为缓解查询要求的高速度和磁盘访问低速的矛盾,常会在内存中设计各种缓存,包括查询缓存、点击缓存,以及倒排表缓存等。
J:
静态网页(staticWebpage),不需要通过提交查询信息即可获得的页面。
镜像网页(mirrorWebpage),网页的内容完全相同,未加任何修改。
局部性原则(localityprinciple),是程序行为的一种性质。它包括:时间局部性和空间局部性。前者指的是,如果某数据刚才被访问,则它很可能在近期内还要被访问;后者指的是,如果某数据刚才被访问,则和它在位置上相邻的数据很可能将被访问。
拒绝服务攻击(denialofservice,DoS),是一种攻击行动,使网站服务器充斥大量要求回复的信息,消耗网络带宽或系统资源,导致网络或系统不胜负荷以至于瘫痪而停止提供正常的网络服务。
L:
链接分析(linkanalysis):Web上的网页及其相互之间的链接可以看成一个巨大的有向图,链接分析指的是利用网页之间的链接信息来评判其重要性(或者相关性)的技术。常用的链接信息包含网页的出度、入度,锚文本内容等;常用的链接分析算法有:PageRank,HITS,SALSA,PHITS,Bayesian等。
M:
MD5(messagedigest5),报文摘要,用于报文编码的一种算法。MD5算法在RFC1321中定义,其基本功能是将一个任意长的报文变换为一个128位的摘要,两个不同的报文对应的摘要相同的概率极小,两个摘要之间的相近程度和对应两个报文的相近程度没有任何关系。
锚文本(anchortext),HTML文本中的链接描述信息,向读者提示该链接所指向网页的性质或特征。例如,在一篇网页中书写有<ahref=“http://www.cctv.com”>新闻频道</a>,则“新闻频道”就是链接href=“http://www.cctv.com”在本网页中的锚文本。
目录型网页(hubpage),该网页提供很多指向其它权威型网页的超链接。是与权威型网页相对应的。
Q:
齐普夫定律(Zipf’slaw),由美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文档中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……。若用f表示频次,r表示等级序号,则有f=C/r(C为常数)。
切词(wordsegmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络与分布式系统实验室”。
全文检索(fulltextretrieval),文本信息检索的一种方法(或者说是一种精细程度),其特点是不仅文档中出现的每一个词都可以被检索出来,而且每一个词的每一次出现也可以被检索出来。
权威型网页(authoritypage),网页内容通常有一个特定的主题,并且被许多其它网页链接,是与目录型网页相对应的一个概念。
S:
散列表(HashTable),或称哈希表,是一种数据结构,它便于快速的信息查找。散列表生成时为表中的每项数据分配一个随机索引代码。这种索引代码的随机性使得数据的分布比较均匀,从而可能大大节省后续查找的时间。
数字图书馆(digitallibarary),一个数字信息对象收藏、组织和表现这些对象的方法以及将这些对象提供给用户的相关的信息技术。它包括支持用户进行定位、检索和获取这些信息对象的服务。
搜索引擎(searchengine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务。
索引词载体信息(indextermcarrier),HTML的标签信息标识了文档中索引词的字体和大小写等信息。
T:
停用词(stopword),指文档中出现的连词,介词,冠词等并无太大意义词。例如在英文中常用的停用词有the,a,it等;在中文中常见的有“是”,“的”,“地”等。
吞吐量(throughput),或称吞吐率,是指在单位时间里系统完成的总任务量。对于搜索引擎来说,就是指系统在单位时间(秒)里可以服务的最大用户查询数量。
U:
URL(uniformresourcelocator),用来定位互联网上信息资源的一种协议(或者说描述规范),网页的定位通常就是以形如“http://host/path/file.html”的URL来描述的,而FTP资源则用形如“ftp://host/path/file”的URL来描述。
URL域名深度,网页对应的url中域名部分包含的子域个数。
URL目录深度,网页对应的url中除去域名部分的目录层次,即url=schema://host/localpath中的localpath部分。如url为http://www.pku.edu.cn,则目录深度为0;如果是http://www.pku.edu.cn/cs,则目录深度为1。
W:
网页出度(pageoutdegree),针对一个网页,该网页指向其他网页的超链接数目。
网页净化(noisereduction),识别并去除网页噪音的过程;即去除网页内与该网页主题内容无关的信息,如广告、版权信息等。
网页爬取器(gatherer),指网页搜集子系统中根据url完成一篇网页抓取的进程或者线程,通常一个搜集子系统上会同时启动多个gatherer并行工作。
网页入度(pageindegree)针对一个网页,整个网络中指向该网页的超链接数目。
网页搜集子系统(crawlersystem),尤指在搜索引擎系统中,利用HTML文档之间的链接关系,在Web上依照网页之间的超链关系一个个抓取网页的程序。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。Crawler,spider,robot,bot一般都指的是相同的事物。
文档对象模型(documentobjectmodel,DOM),DOM将一个XML文档转换成一个对象集合,然后可以任意处理该对象模型。这一机制也称为“随机访问”协议,因为可以在任何时间访问数据的任何一部分,然后修改、删除或插入新数据。
文档自动分类(automatictextcategorization,ATC),用计算机程序来确定指定文档和预先定义文档类别之间的隶属关系。
X:
先进先出(firstinfirstout,FIFO),是一种页面替换算法,选择最先装入主存储器的那一页调出,或者说是把驻留在主存时间最长的那一页调出。
相关排序(relevanceranking),指信息检索系统返回结果的排序,其中条目的顺序反映了系统确定的结果和查询的相关程度。
向量空间模型(vectorspacemodel,VSM),按照共有词汇假设,一组文档有一个总词语集合Σ,一篇文档可以用一个向量表示,其元素是对应词语在该文档中出现情况的一种定量描述,一组文档就可以看成是一个向量空间中的若干元素,于是可以应用向量空间中距离的概念来考察两篇文档之间的相似程度等。
响应时间(responsetime),在计算机系统中,从提交请求(或询问)到开始看到回答之间所经历的时间。对于搜索引擎来说,就是用户提交查询到他看到返回结果之间所经历的时间。在搜索引擎的具体实践中,由于这个时间和动态变化的网络状态有关,常常用检索系统为完成一个查询所消耗的响应时间来近似。
消重(replicasornear-replicasdetection),清除所搜集网页集合中的镜像或转载网页的过程。
协议(protocol),为实现通信而制定的能够协调各功能单元操作的一组规则。
信息检索(informationretrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息检索模型(IRmodel),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组<D,Q,F,R(qi,dj)>,其中D是一
个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值。常用的信息检索模型有:集合论模型、代数模型、概率模型等。
Y:
用户查询日志(userquerylog),是在用户提交查询请求时由系统自动记录的相关信息,它包括用户查询时提交的关键词、提交时间、用户IP地址、页号(通常查询结果分页显示,每页显示10个查询结果,用户首次查询页号为1,用户翻页时页号即为用户选择的结果页面号)和是否在缓存中命中等信息。
用户点击日志(userhitlog),是用户浏览查询结果并点击页面时由系统自动记录的相关信息,它通常包括用户点击页面的时间、点击页面的URL、用户IP地址、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询词等信息。
元数据(metadata),描述某种类型资源(或对象)的属性、并对这种资源进行定位和管理、同时有助于数据检索的数据。
元搜索引擎(metasearchengine),又称集成型搜索引擎,它将用户的查询发送给多个独立的搜索引擎,收集它们产生的结果,然后按照一定的算法进行选择和重新排序以形成一个最终结果返回给用户。
Z:
中文信息处理(Chineseinformationprocessing),用计算机对汉语的音、形、义等语言文字进行信息的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。
主题搜集(topic-specific/focusedcrawling),即面向主题的信息搜集系统,其主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的与主题内容密切相关的网页。
转载网页(near-replicasWebpage),内容基本相同但可能有一些额外的编辑信息等。虽然网页做了部分改动,但其主题内容未变;即去除网页的噪声(如广告、版权等信息)外,其它正文内容相同。转载网页也称为近似镜像网页。
最低频使用(leastfrequentlyused,LFU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去使用频率最低的数据。数据替换的粒度可以根据应用场合确定。
最近最少使用(leastrecentlyused,LRU),缓存内容维护的一种数据替换策略,当缓存满,且有新的数据要进来时,它总是淘汰现有数据中在过去最长时间未被使用过的数据。