搜索引擎资料收集(转)

WEB程序员 2010-11-18

搜索引擎学习资源收集

一、搜索引擎技术/动态资源

<一>、综合类

1、卢亮的搜索引擎研究http://www.wespoke.com/

卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。

2、laolu'blog

有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数字

3、哈斯日志http://www.loverty.org/

在这里可以看到国内外几大搜索引擎的最新动态,值得关注搜索发展形势的人多看看

4、北京奕天锐新科技有限公司http://www.21cnbj.com/

搜索引擎、SEO、SEM等行业新闻动态

5、中文搜索引擎指南网http://www.sowang.com/

搜索引擎最新动态,各种搜索技巧、方法

6、中文全文检索网http://www.fullsearcher.com/

FullSearcher.Com是有两个对搜索爱好的年轻人创办,我们的目标是让中文互联网全面进入搜索时代,让搜索无处不在。通过搜索改变人们的生活。

FullSearcher提供全文检索的相关知识、垂直搜索引擎知识、搜索的相关新闻等搜索相关内容。

7、周博——每天9点档的搜索引擎动态

8、李彦宏的博客http://hi.baidu.com/liyanhong

9、中科院软件所-张俊林博客http://blog.csdn.net/malefactor/

搜索引擎技术研究

<二>、Google动态

Google官方博客:Google黑板报http://googlechinablog.com/

Google中国的博客网志,走近我们的产品、技术和文化

1、Gfanshttp://gfans.org/

2、G速客http://www.gseeker.com/

<二>、其他搜索引擎动态

1、雅虎搜索日志http://ysearchblog.cn/

记录雅虎搜索引擎的动态、产品、技术等

2、搜狗实验室http://www.sogou.com/labs/

搜狗实验室(SogouLabs)是搜狗搜索核心研发团队对外交流的窗口,包含创意产品、原型演示、资料下载、学术论文四个栏目。实验室热烈欢迎一直以来关注搜狗、支持搜狗的各位互联网玩家;对于致力于中文互联网研究的学术界同仁们的经常来访,也予以热切的期待。我们期望通过这个平台,展现搜狗研发团队强大的研发、创新能力;推动学术界和产业界的交互;了解用户对新产品的需求。我们的目标:为中文网民的互联网生活提供更加全面、更加优质的服务。

搜狗实验室博客http://labs.blog.sohu.com/

3、百度的空间http://hi.baidu.com/baidu

百度的动态

4、有道搜索博客http://i.yodao.com/

网易新推搜索引擎--有道搜索的近期动态

5、LiveSearch'sWebLoghttp://blogs.msdn.com/livesearch/

MicrosoftLiveSearch'snewshttp://windowslivebeta.spaces.live.com/

二、搜索引擎代码资源

一>、搜索引擎/网络蜘蛛程序代码

国外开发的相关程序

1、Nutch

官方网站http://www.nutch.org/

中文站点http://www.nutchchina.com/

最新版本:Nutch0.7.2Released

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。

2、Lucene

官方网站http://lucene.apache.org

中文站点http://www.lucene.com.cn/

Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包[用Java写的],即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

3、Larbin:http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

国内开发的相关程序

1、SQLET-开放源码的中文搜索引擎

官方网站http://www.sqlet.com/

SQLET,是Search&Query&Link,加后缀let,表示小的,小型的意思.打算建立一个能搜上亿张网页的基于主题功能的中文搜索引擎.支持3种索引方式:MySql_table_Index,Lucene_Index,SQLET_Index.网页抓取可以保存在文件系统及数据库里。自带WebServer.

2、菲度垂直搜索引擎代码

菲度http://www.faydu.net为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,

现在开源测试版本的代码,供大家讨论。下载说明:

1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量

2》包含一个data的数据库还原到sqlserver

3》收集完毕默认在bin目录有licene生成的反排的索引文件

4》下载地址:http://www.faydu.net/download/code.rar

开放日期:2006-4-18来源:http://blog.csdn.net/faydu/archive/2006/04/18/667997.aspx

语言:VB.net(c#)

二>、中文分词程序代码

1、计算所汉语词法分析系统ICTCLAS

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面:http://www.nlp.org.cn/project/project.php?proj_id=6

由于ICTCLAS是由C语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把ICTCLAS改为Java和C#等其他语言。

(1)fenci,Java的ICTCLAS,下载页面:http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个Java的ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从ICTCLAS中改进,有Java,C#和C++三个版本,介绍页面:http://www.donews.net/accesine

2、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面:http://www.hylanda.com/cgi-bin/download/download.asp?id=8

3、其他

(1)CSW中文智能分词组件

运行环境:WindowsNT、2000、XP或更高,可以在ASP,VB等微软的开发语言中调用。

简介:CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面:http://www.vgoogle.net/

(2)C#写的中文分词组件

据作者介绍,一个DLL文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

三>、开源spider一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.

第一个spider程序由MIT的MatthewKGray操刀该程序的目的是为了统计互联网中主机的数目

Spier定义(关于Spider的定义,有广义和狭义两种).

*狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序.

*广义:所有能利用http协议检索web文档的软件都称之为spider.

其中ProtocolGivesSitesWayToKeepOutThe'BotsJeremyCarl,WebWeek,Volume1,Issue7,November1995是和spider息息相关的协议,大家有兴趣参考robotstxt.org.

Heritrix

HeritrixistheInternetArchive'sopen-source,extensible,web-scale,archival-qualitywebcrawlerproject.

Heritrix(sometimesspelledheretrix,ormisspelledormissaidasheratrix/heritix/heretix/heratix)isanarchaicwordforheiress(womanwhoinherits).Sinceourcrawlerseekstocollectandpreservethedigitalartifactsofourcultureforthebenefitoffutureresearchersandgenerations,thisnameseemedapt.

语言:JAVA,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980

WebLechURLSpider

WebLechisafullyfeaturedwebsitedownload/mirrortoolinJava,whichsupportsmanyfeaturesrequiredtodownloadwebsitesandemulatestandardweb-browserbehaviourasmuchaspossible.WebLechismultithreadedandcomeswithaGUIconsole.

语言:JAVA,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=38170

JSpider

AJavaimplementationofaflexibleandextensiblewebspiderengine.Optionalmodulesallowfunctionalitytobeadded(searchingdeadlinks,testingtheperformanceandscalabilityofasite,creatingasitemap,etc..

语言:JAVA,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=65617

WebSPHINX

WebSPHINXisawebcrawler(robot,spider)Javaclasslibrary,originallydevelopedbyRobertMillerofCarnegieMellonUniversity.Multithreaded,tollerantHTMLparsing,URLfilteringandpageclassification,patternmatching,mirroring,andmore.

语言:JAVA,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=48810

PySolitaire

PySolitaireisaforkofPySolSolitairethatrunscorrectlyonWindowsandhasanicecleaninstaller.PySolitaire(PythonSolitaire)isacollectionofmorethan300solitaireandMahjongggameslikeKlondikeandSpider.

语言ython,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=86107

TheSpiderWebNetworkXoopsModTeam

TheSpiderWebNetworkXoopsModuleTeamprovidesmodulesfortheXoopscommunitywritteninthePHPcodinglanguage.WedevelopmodsandortakeexistingphpscriptandportitintotheXoopsformat.Highqualitymodsisourgoal.

语言hp,(下载地址)http://sourceforge.net/projects/tswnmoddev

Fetchgals

Amulti-threadedwebspiderthatfindsfreepornthumbnailgalleriesbyvisitingalistofknownTGPs(ThumbnailGalleryPosts).Itoptionallydownloadsthelocatedpicturesandmovies.TGPlistisincluded.PublicdomainperlscriptrunningonLinux.

语言erl,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=110338

WhereSpider

ThepurposeoftheWhereSpidersoftwareistoprovideadatabasesystemforstoringURLaddresses.Thesoftwareisusedforbothrippinglinksandbrowsingthemoffline.ThesoftwareusesapureXMLdatabasewhichiseasytoexportandimport.

语言:XML,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=115931

Sperowider

SperowiderWebsiteArchivingSuiteisasetofJavaapplications,theprimarypurposeofwhichistospiderdynamicwebsites,andtocreatestaticdistributablearchiveswithafulltextsearchindexusablebyanassociatedJavaapplet.

语言:Java,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=90254

SpiderPy

SpiderPyisawebcrawlingspiderprogramwritteninPythonthatallowsuserstocollectfilesandsearchwebsitesthroughaconfigurableinterface.

语言ython,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=55531

SpideredDataRetrieval

SpiderisacompletestandaloneJavaapplicationdesignedtoeasilyintegratevarieddatasources.*XMLdrivenframework*Scheduledpulling*Highlyextensible*Provideshooksforcustompost-processingandconfiguration

语言:Java,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=90769

webloupe

WebLoupeisajava-basedtoolforanalysis,interactivevisualization(sitemap),andexplorationoftheinformationarchitectureandspecificpropertiesoflocalorpubliclyaccessiblewebsites.Basedonwebspider(orwebcrawler)technology.

语言:java,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=121963

ASpider

Robustfeaturefulmulti-threadedCLIwebspiderusingapachecommonshttpclientv3.0writteninjava.ASpiderdownloadsanyfilesmatchingyourgivenmime-typesfromawebsite.Triestoreg.exp.matchemailsbydefault,loggingallresultsusinglog4j.

语言:java,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=126578

larbin

LarbinisanHTTPWebcrawlerwithaneasyinterfacethatrunsunderLinux.Itcanfetchmorethan5millionpagesadayonastandardPC(withagoodnetwork).

语言:C++,(下载地址)http://sourceforge.net/project/showfiles.php?group_id=42562

三、SEO相关资源

1、域名信息查询

 ★查询国际顶级域名的信息(.aero,.arpa,.biz,.com,.coop,.edu,.info,.int,.museum,.net,.org),可以通过ICANN授权的域名注册商来查询,也可以直接到INTERNIC网站查询,网址是

http://www.internic.com/whois.html

http://www.iwhois.com/

★查询全球各个地理顶级域名是否已经被注册可以到下列网址查询(其中也包括国内域名.cn):

http://www.uwhois.com/cgi/domains.cgi?User=NoAds

★查询国内域名的注册情况,

http://ewhois.cnnic.net.cn/index.jsp

★万网的域名注册信息查询

http://www.net.cn/

★IP地址查询、域名注册信息Whois查询

http://ip.zahuopu.com/

2、alexa相关与搜索排行榜

★中文排名500强

http://www.alexa.com/site/ds/top...&lang=zh_gb2312

★GoogleZeitgeist--Google搜索排行榜

http://www.google.com/press/intl-zeitgeist.html#cn

★百度中文搜索风云榜

http://top.baidu.com/

★雅虎搜索排行榜

http://misc.yahoo.com.cn/top_index.html

★搜狗搜索指数

http://www.sogou.com/top/

3、搜索关键词查询

★google关键字查询https://adwords.google.com/select/KeywordSandbox

★百度关键字查询http://www2.baidu.com/inquire/dsquery.php

★搜狐关键词http://db.sohu.com/regurl/pv_price/query_consumer.asp

4、外部链接查询

★搜狗Link查询http://www.sogou.com/features/

5、seo项目/工具

★网页质量http://category.booso.com/cgi-bin/category/category.cgi

★关键词密度http://www.21ql.com/seo/keyword.asp

★搜索引擎蜘蛛模拟器http://www.webconfs.com/search-engine-spider-simulator.php

★GoogleDance查询工具:http://www.google-dance-tool.com/

6、seo网站

英文网站:

搜索观察http://www.searchenginewatch.com/

seochathttp://www.seochat.com

中文网站

在这里可以获取最新的SEO行业信息

搜索引擎优化交流中心http://www.seoonline.cn

四、各大搜索引擎公司相关资料

1、联系方式

Google

http://www.google.com/intl/zh-CN/contact.html

公司总部

1600AmphitheatreParkway

MountainView,CA

94043USA

phone:(650)253-0000

fax:(650)253-0001

电子邮件:[email protected]

百度

http://d.baidu.com/contact/index.html

电话(010)82621188

传真(010)8260700782607008

[email protected]

地址北京市北四环西路58号理想国际大厦12层

邮编100080

雅虎/一搜

http://cn.yahoo.com/docs/sales/040203_contact.htm

总机:010-65811221

地址:北京市朝阳区光华东路和乔大厦B座5层雅虎中国搜索事业部

邮编:100026

传真:010-65812440

在线问题提交:http://www.yisou.com/search_feedback.html

中国搜索

http://www.zhongsou.com/kefu/kfzs.htm

地址:北京市西直门北大街42号华星大厦a座15.16层

邮编:100088

总机:010-62266296

传真:010-82211302

搜狐搜索

http://www.sohu.com/about/lianxi.htm

地址:北京市海淀区中关村东路1号清华科技园9号威新国际大厦10层

邮编:100084

电话:86-10-62726666

传真:86-10-62728300

新浪搜索

http://ads.sina.com.cn/contact.html

北京市北四环西路58号理想国际大厦20层

邮编:100080

Tel:(86-10)82628888

Fax:(86-10)82607166

搜索引擎咨询电话:010-82628888转6688

搜索引擎联系信箱[email protected]

网易搜索

http://so.163.com/contactus.shtml

北京市东城区东长安街1号东方广场东方经贸城东三办公楼1901室

邮编/Zip:100738

网易搜索引擎客服热线:

电话:010-82110163-8350、8121、8136

E-mail:[email protected]

相关推荐