搜索引擎技术/代码资源

搜索引擎技术/动态资源

<一>、综合类

1、卢亮的搜索引擎研究 http://www.wespoke.com/

卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。

2、laolu'blog

有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数字

3、哈斯日志 http://www.loverty.org/

在这里可以看到国内外几大搜索引擎的最新动态,值得关注搜索发展形势的人多看看

4、北京奕天锐新科技有限公司 http://www.21cnbj.com/

搜索引擎、SEO、SEM等行业新闻动态

5、中文搜索引擎指南网 http://www.sowang.com/

搜索引擎最新动态,各种搜索技巧、方法

6、中文全文检索网 http://www.fullsearcher.com/

FullSearcher.Com是有两个对搜索爱好的年轻人创办,我们的目标是让中文互联网全面进入搜索时代,让搜索无处不在。通过搜索改变人们的生活。 FullSearcher提供全文检索的相关知识、垂直搜索引擎知识、搜索的相关新闻等搜索相关内容。

7、周博 — 每天9点档的搜索引擎动态

8、李彦宏的博客 http://hi.baidu.com/liyanhong

9、中科院软件所- 张俊林博客 http://blog.csdn.net/malefactor/

<二>、Google动态

1、Google官方博客:Google 黑板报 http://googlechinablog.com/

2、Google 中国的博客网志,走近我们的产品、技术和文化

<三>、其他搜索引擎动态

1、雅虎搜索日志 http://ysearchblog.cn/

记录雅虎搜索引擎的动态、产品、技术等

2、搜狗实验室 http://www.sogou.com/labs/ 博客 http://labs.blog.sohu.com/

搜狗实验室(Sogou Labs)是搜狗搜索核心研发团队对外交流的窗口,包含创意产品、原型演示、资料下载、学术论文四个栏目。实验室热烈欢迎一直以来关注搜狗、支持搜狗的各位互联网玩家;对于致力于中文互联网研究的学术界同仁们的经常来访,也予以热切的期待。我们期望通过这个平台,展现搜狗研发团队强大的研发、创新能力;推动学术界和产业界的交互;了解用户对新产品的需求。我们的目标:为中文网民的互联网生活提供更加全面、更加优质的服务。

3、百度的空间 http://hi.baidu.com/baidu

百度的动态

4、有道搜索博客 http://i.yodao.com/

网易新推搜索引擎--有道搜索的近期动态

5、Live Search's WebLog http://blogs.msdn.com/livesearch/

Microsoft Live Search's news http://windowslivebeta.spaces.live.com/

 


搜索引擎代码资源

<一>、搜索引擎/网络蜘蛛程序代码

国外开发的相关程序

1、Nutch

官方网站 http://www.nutch.org/
中文站点 http://www.nutchchina.com/
最新版本:Nutch 0.7.2 Released

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。

2、Lucene

官方网站 http://lucene.apache.org
中文站点 http://www.lucene.com.cn/

Lucene 是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包[用Java写的],即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

3、Larbin:

官方网站 http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

国内开发的相关程序

4、SQLET - 开放源码的中文搜索引擎

官方网站 http://www.sqlet.com/

SQLET,是Search & Query &Link, 加后缀 let,表示小的,小型的意思.打算建立一个能搜上亿张网页的基于主题功能的中文搜索引擎.支持3种索引方式:MySql_table_Index, Lucene_Index,SQLET_Index.网页抓取可以保存在文件系统及数据库里。自带WebServer.

5、菲度垂直搜索引擎代码

菲度 http://www.faydu.net

一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,现在开源测试版本的代码,供大家讨论。下载说明:

1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量
2》包含一个data 的数据库 还原到sql server
3》收集完毕默认在bin目录有licene生成的反排的索引文件
4》下载地址:http://www.faydu.net/download/code.rar
语言:VB.net(c#)

<二>、中文分词程序代码

1、计算所汉语词法分析系统 ICTCLAS

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面:http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面:http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本:http://www.donews.net/accesine

2、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面:http://www.hylanda.com/cgi-bin/download/download.asp?id=8

3、CSW中文智能分词组件

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面:http://www.vgoogle.net/

<三>、开源 Spider 一览

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.

第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目

1、Spier

Spier定义(关于Spider的定义,有广义和狭义两种).

其中Protocol Gives Sites Way To Keep Out The 'Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相关的协议,大家有兴趣参考robotstxt.org

2、Heritrix

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heir

 

Labels: seo.