`
mfcai
  • 浏览: 404717 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
阅读更多
1.为什么需要搜索引擎?
什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无异于大海捞针。那么用户如何在数百万个网站中快速有效地查找到想要得到的信息呢?这就要借助于Internet中的搜索引擎。

2.搜索引擎使用的信息检索技术
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。
2.1Robot技术
搜索引擎通过蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入数据库中
2.2翻译技术
翻译技术主要运用于跨语言搜索引擎工作过程。如下:
用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。
2.3转换技术
转换技术主要针对中文繁简转换出理。如下:
大陆与台湾、香港的文化背景不同,因此形成的一些词汇方面的差异。例如:
大陆词汇 录像   知识产权 磁盘   新西兰  克林顿 硅谷  
台港词汇 录影   智慧财产权 磁碟   纽西兰  柯林顿  矽谷
搜索引擎应该根据自动判别词汇的繁简编码,转成相对应的词汇意思,然后进行检索
2.4过滤技术
搜索引擎通过“关键字过滤”等过滤技术对检索到的信息进行过滤、屏蔽。
2.5结果处理技术
结果处理技术主要是将检索到查询结果,进行去重、基本信息提取、排序等操作。



3.搜索引擎分类
3.1按信息的组织方式
按照信息的组织方式,一般把搜索引擎分为目录式分类搜索引擎,机器人搜索引擎,“混合型”搜索引擎
(1)目录式分类搜索引擎
录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。
参照分类法的思路,按照主题建立分类索引,形成一个树形等级式的分类体系结构,建立起一套既可搜索又可浏览的等级式主题分类目录,以

超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介
目前,对于中文网站来说,最重要的分类目录有以下几个:开放式目录ODP,Yahoo!,门户搜索引擎目录搜狐、网易、新浪。
。当用户查询某个关键词,系统会在这些描述中进行搜索。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,

因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数

据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。
够提供更为准确的查询结果,但收集的内容却非常有限
(2)机器人搜索引擎
搜索引擎机器人(robots), 或者说是爬行程序(crawlers)、蜘蛛程序(spiders)。
机器人(robots)事实上是一个精心设计的网站爬行程序,依照网站的连接从一个网站游历到另一个网站。根据这种自动化程序,基于预先设计

好的网站排名标准及算法,对网站进行评估排名。
查全率,精确率
(3)“混合型”搜索引擎
提供分类浏览检索和关键词检索两种途径.目前,大多数引擎都采用这种方式。

3.2按支持的语言进行分类
目前国内用户使用的搜索引擎主要有两类:即英文引擎和中文引擎。
常用的英文搜索引擎包括google、Yahoo!、MSN、Infoseek等。
常用的中文搜索引擎主要有:中文google、一搜、3721、百度、中搜、搜狐搜狗、网易等。
传统中文引擎所采用的技术:
中文分词技术;
索引技术;
繁简转换;
关键词加亮;
热词提取;
词频分析;
新词发现;
更新频率;
新一代中文搜索引擎的技术特点:
海量级数据的精确搜索;
智能信息处理—基于语义理解的文本挖掘技术;

3.3垂直搜索引擎和普通的网页搜索引擎
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
   垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
    垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索…

…几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
    举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
   垂直搜索引擎大体上需要以下技术:
    网页结构化信息抽取技术或元数据采集技术
    分词、索引
    其他信息处理技术
   垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。



4.主流中文搜索引擎简介
4.1、Google简介
http://www.google.com
Google的成功得益于其强大的功能和独到的特点:

Google检索网页数量达24亿,搜索引擎中排名第一;
Google支持多达132种语言,包括简体中文和繁体中文;
Google网站只提供搜索引擎功能,没有花里胡哨的累赘;
Google速度极快,年初时据说有15000多台服务器,200多条T3级宽带;
Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;
Google智能化的“手气不错”功能,提供可能最符合要求的网站;
Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。

Google具有独到的图片搜索功能;
Google具有强大的新闻组搜索功能;
Google具有二进制文件搜索功能(PDF,DOC,SWF等);
Google还有很多尚在开发阶段的令人吃惊的设想和功能。

4.2、百度搜索
http://www.baidu.com
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点

4.3、雅虎中国
http://www.yahoo.com.cn
雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站(www.yahoo.com.cn)于1999年9月正式开通,它是雅虎在全球的第20个网站。
Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容
支持中国用户完成包括英文在内的38种语言搜索
4.4、中国搜索
http://www.zhongsou.com/
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.特点:
海量数据:超过2亿网页的中文信息库。
高速响应:检索平均响应时间不超过0.2秒,支持500次/秒高迸发量。
智能排序:非唯一主导因素的高级人工排序
行业分类:43个行业的分类,使搜索更加精准
具备第三代智能中文搜索引擎的特点


4.5、搜狗搜索
http://www.sogou.com/
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
搜狗搜索引擎的三大特点:
  海量:全球首个网页收录量达到100亿的中文搜索引擎
  及时:每天更新5亿网页,最新资讯最快1分钟即可被检索到
4.6、奇虎社区搜索引擎
http://www.qihoo.com/
特点:
奇虎社区搜索引擎是具备Web2.0特征的垂直搜索引擎
专著于社区搜索,增强与网民的互动,强调个性化搜索。

4.7、网易搜索引擎 (http://search.163.com/)
特点:
开放式目录管理系统(ODP)
拥有超过一万个类目,超过25万条活跃站点信息,
日增加新站点信息500~1000条,日访问量超过500万次
4.8、北京大学天网中英文搜索引擎
http://e.pku.edu.cn/
收录 135 万网页和 9 万新闻组文章,
支持电子邮件查询。
无分类查询。
不支持数字关键词和URL名检索。

4.9、Openfind搜索引擎
http://www.openfind.com.tw
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,特点:
海量数据:宣布累计抓取网页35亿,
多元排序(PolyRankTM):使用者用可以不同标准来排序查询结果

分享到:
评论
1 楼 cnpollux 2008-02-25  
奇虎搜索是最烂的,分词还只是按两个字做为一个词来分

相关推荐

    论文研究-基于中文搜索引擎网络信息用户行为研究.pdf

    为了更好地理解中文搜索用户的检索行为,首先建立一个搜索引擎选择平台,主要是用来生成研究中所需的日志文件;然后从中英文用户的搜索行为差异的角度出发,对日志文件进行深入研究,包括各中文搜索引擎使用率比较...

    Web中文搜索引擎研究。pdf

    Web搜索引擎的出现在一定程度上解决了这种矛盾,介绍中文搜索引擎技术时,首先讲述搜索引擎的发展简史和基本框架,然后介绍各组成部分的工作原理和关键技术。最后对中文搜索引擎的发展进行展望,总结出中文搜索引擎...

    学术学位论文.搜索引擎专辑 10篇之一:Web数据挖掘和个性化搜索引擎研究.rar

    Web数据挖掘和个性化搜索引擎研究.rar Web搜索与Web缓存的若干关键问题研究.rar 基于Lucene的Web站内信息搜索系统.rar 基于多Agent的信息搜索引擎技术研究与应用.rar 基于多Agent的智能搜索引擎系统研究.rar 搜索...

    元搜索引擎个性化搜索的研究与设计

    【中文摘要】 随着Web信息的快速增长,搜索引擎已成为用户信息检索的主要工具。元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但是它们返回的结果往往数目庞大,并且很多结果与用户查询并不相关,这直接...

    走进搜索引擎.pdf

    本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 编辑推荐编辑 《走进...

    基于Nutch的搜索引擎系统的研究与实现

    基于Nutch的搜索引擎系统的研究与实现

    中文搜索引擎开发利用策略研究

    在总结分析国内外搜索引擎存在问题的基础上,提出了开发利用中文搜索引擎的一些策略,包括提升搜索引擎的智能搜索和人性化服务质量、开发基于内容的搜索引擎务、加强专业搜索引擎和专业元搜索引擎的研究以及重视学术...

    Java搜索引擎的研究与实现(含文档+源码)

    Java搜索引擎的研究与实现(含文档+源码) 目录 1 摘要 3 第一章 引言 4 第二章 搜索引擎的结构 5 2.1系统概述 5 2.2搜索引擎的构成 5 2.2.1网络机器人 5 2.2.2索引与搜索 5 2.2.3 Web...

    学术学位论文.搜索引擎专辑 10篇之八:网络树形搜索引擎的设计及其验证.rar

    Web数据挖掘和个性化搜索引擎研究.rar Web搜索与Web缓存的若干关键问题研究.rar 基于Lucene的Web站内信息搜索系统.rar 基于多Agent的信息搜索引擎技术研究与应用.rar 基于多Agent的智能搜索引擎系统研究.rar 搜索...

    搜索引擎技术基础.ppt

    1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用. 2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统. 3、搜索引擎为了最求最高的查询速度,在搜索...

    基于lucene和nutch的开源搜索引擎资料集合

    其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...

    垂直搜索引擎的设计与实现

    通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进本领域的技术...

    论文研究-基于中文搜索引擎的网络信息用户行为研究 .pdf

    基于中文搜索引擎的网络信息用户行为研究,王浩,郭琳,随着中国网民数量达到世界第一位,中文搜索引擎用户行为的研究逐渐成为当今热门主题之一。为了更好的理解中文搜索用户的检索行为

    学术学位论文.搜索引擎专辑 10篇之三:基于Lucene的Web站内信息搜索系统.rar

    Web数据挖掘和个性化搜索引擎研究.rar Web搜索与Web缓存的若干关键问题研究.rar 基于Lucene的Web站内信息搜索系统.rar 基于多Agent的信息搜索引擎技术研究与应用.rar 基于多Agent的智能搜索引擎系统研究.rar 搜索...

    搜索引擎-基于Lucene搜索引擎的中文全文信息检索技术的研究.pdf

    搜索引擎-基于Lucene搜索引擎的中文全文信息检索技术的研究.pdf

    基于Java的搜索引擎Nutch中文搜索技术研究

    基于Java的搜索引擎Nutch中文搜索技术研究 摘要:Nutch是一个优秀的基于Java的开放源码搜索引擎,为了使它能够支持中文搜索,本文在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词...

    中文垂直搜索引擎研究与实现

    一个中文垂直搜索引擎的实现。介绍了具体的算法等技术。

    论文研究-搜索引擎中文分词策略的研究 .pdf

    搜索引擎中文分词策略的研究,王靖,徐向阳,本文首先介绍了什么是中文分词,分析了搜索引擎进行中文分词的必要性,然后根据搜索引擎的评价标准,提出了一些适合于搜索引擎的

    论文研究-基于向量空间模型的中文搜索引擎评测系统研究与实现.pdf

    提出了能够综合衡量搜索引擎工作性能的六个评测指标,选择了当今主流的三个搜索引擎:谷歌、雅虎和百度进行评测,成功地在两个大型的数据集上实现了整个自动评测系统。实验表明,谷歌工作性能最稳定;雅虎返回的第一...

Global site tag (gtag.js) - Google Analytics