如一个大学内的建立了自己的网页搜索引擎后可以有选择的向上一级系统提交元数据,这就可以保证涉及版权或保密等方面的要求不便于大范围公开的信息不会通过搜索引擎外漏。
作为一个分布式系统,还有一个关键问题就是协议规范的制定问题,基于DNS的搜索引擎的后续开发和协议制定工作中都将继续加强和IETF、W3C等标准化组织的合作,提高标准的认可度和权威性,事实上本系统的提出过程中就得到了IETF的许多支持和建议。
由于WWW的完全自由、缺乏管理的基本特性使得我们在系统建立时必须因地制宜,灵活地采用该系统的基本规则。例如就在我校,尽管大部分单位院系都采用了本校域名“hust.edu.cn”下的四级域名,但也有一些使用了如“.net”等其它域名,如何严格按照系统的规则,这些其它域名下的网页是不能被本校的搜索系统索引的,但是考虑到实际使用需求,这些网站也都被下载索引,但在向上级服务器提交时加入特定的控制措施,避免上层系统的数据混乱。而在其它域下的实施更应注意到这一点,例如有的国家地区可能所有的网页数据并不是很多,构建一种集中式的搜索引擎就可完全满足要求,但对于如微软这样大的站点,数据量非常大,采用提交检索接口的形式可能比直接地一次又一次下载其网页更加合理些。在保证系统整体完整明晰的条件下,系统的实施中必须能根据实际需要找到一些折中,灵活采用三种不同的系统构建方案。
8 总结
基于DNS的搜索引擎采用了DNS的基本体系,利用三种不同结构的信息检索系统构建了一种结构清晰、体系完整的分布式搜索系统,而且以“域”为基本单位的划分形式也为系统找到了基本的实施需求,基本可以解决分布式网页检索系统设计的两个难题。从理论山讲,该系统在覆盖率、更新率以及检索结果的准确率等方面都较现有的搜索引擎有较大的改进,其基本思路就是认为信息检索应该成为WWW系统的内在功能,而用户则可从个性化信息检索系统中获取信息。此系统还有一个重要特点就是它是一个公共的信息检索系统,而非商业化的搜索引擎,但是一些公司企业却可以利用此公共平台提供更为优质的个性化商业服务。事实上,从TCP/IP到E-mail,几乎所有的Internet技术都是开放式技术,但更好的商业化服务可以以此建立,这一点也正是保证Internet持续发展的重要原则。
9 展望
1 语义网研究。HTML语言用于构建网页非常容易,但在索引检索时搜索却遇到很多困难,因此W3C提出了XML数据集用以解决WWW上信息检索问题。但是XML的实施却有一定的困难,因为XML虽然为搜索引擎设计带来很多便利,但对网页设计者来说却并不是一种很理想的工具。随后W3C又开发了RDF和Ontology等基于XML的更先进的网页数据模型,但是也都很难实施。在网页设计者和网页搜索技术间找到一种折中是解决问题的关键。而基于DNS的网页搜索引擎则为解决此问题提供了一种可行的方法。在系统的最底层我们可以使用基于XML的技术对HTML等多种格式的网页进行索引,这样对网页设计者来说其依然可以用HTML等格式进行网页设计,而对搜索引擎设计者来说,其面对的却是各个服务器提供的标准XML格式数据。但就目前情况而言,用XML格式进行网页索引相对较为简单,但是如何用RDF等更高级的语义模型索引网页依
11
然是一个很难解决的问题。
2 互联网信息基础体系研究。网页仅仅是互联网上的一种数据,普通的互联网用户在信息检索服务方面主要是用Google等网页搜索引擎,虽然现在的网页搜索引擎在覆盖率、更新率以及查询结果的准确率方面存在诸多问题,但还并不是非常严重。如果说Google上万个搜索结果使用户茫然不知所措的话,在图书馆里这还仅仅是一个开始,现有的图书馆中都有上百种各类资源,你可能要去依次查阅几十种各类相关资源,而且要对每种资源的检索规则有充分的认识方可获得全面准确信息,这对大多数用户来说十分困难。但互联网信息资源仍在急剧扩张,检索整个互联网几乎将变成一项不可能的任务。每个人都希望能够在一个系统中获得互联网上所有相关信息,而不用知道信息的所在位置。如何整合互联网上全部的信息资源消除“信息孤岛”已不仅是数字图书馆的研究课题,而是互联网进一步发展所必需解决的基本问题。如同网页资源一种,互联网其它各类资源也分布各地,因此可以考虑利用基于DNS网页搜索引擎的基本结构,建立一种可以有效覆盖连接互联网各类资源的Internet信息基础体系结构。作为基于DNS的网页搜索引擎的一个扩展,我们又提出了“域内资源整合系统,Domain resource integration system(DRIS)”用于此目的,目前已经在IETF[19]对此系统有一些相关的讨论。此项研究的更重要意义还在于为我们的分布式系统找到更为明显迫切的实施需求。 致谢 在此,我们向对本文的工作给予支持和建议的同行,特别是IETF应用层工作组的支持表示感谢 References:
[1] Steve Lawrence, C. Lee Giles. Searching the World Wide Web. Science, 1998,280:98~100 [2] C.M. Bowman, P.B. Danzig, D.R. Hardy, et al. The Harvest information discovery and access system.
Computer Networks and ISDN Systems, 1995,28 (1/2): 119~125
[3] N. Sato, M. Uehara, Y. Sakai, H. Mori. A distributed search engine for fresh information retrieval.
Proceedings of Database and Expert Systems Applications, 12th International Workshop on,2001:211~216
[4] Mark A.C.J. Overmeer. My personal search engine. Computer Networks,1999,31(21):2271~2279 [5] Infobus, http://www-diglib.stanford.edu/diglib/pub/userinfo.html
[6] Garratt, Andrea. A survey of alternative designs for a search engine storage
structure .Information and Software Technology, 2001,43(11):661~677
[7] Sergey Brin. The anatomy of a large-scale hypertextual web search engine. Computer networks
and ISDN system, 1998,30(7):107~117
[8] Henzinger M.R. Hyperlink analysis for the Web. IEEE Internet Computing, 2001,5(1):45~50 [9] Soumen Chakrabati, Dom Byron E. Mining the Web's Link Structure.Computer,1999,32(8):60~67 [10] 雷鸣,王建勇等.第三代搜索引擎与天网二期.北京大学学报(自然科学版).2001, 37(5):734~740 [11] Lei Ming, Wang Jiangyong,Chen Baojue, etc. Improved Relevance Ranking in WebGather, Journal
of Computer Science and Technology, 2001, 16(4):410~417
12
[12] 宋聚平,王永成等.搜索引擎中Robot搜索算法的优化.情报学报,2002,21(2):130~133 [13] Web ontology model,http://www.w3.org/2001/sw/WebOnt/
[14] Ronald Fagin, Ravi Kumar, Kevin S. McCurley, etc, Searching the workplace web, In: Proceedings of the 12th
International WWW Conference (WWW2003) May 20-24, 2003, Budapest, HUNGARY
[15] Liang sun. Implementation of large-scale distributed information retrieval system. Proceedings
of Info-tech and Info-net,2001,3 :7 ~17
[16] SDLIP, http://www-diglib.stanford.edu/~testbed/doc2/SDLIP/
[17] Huang Lieming, Hemmje Matthiasa, Neuhold Erich J, ADMIRE: an adaptive data model for Meta search
engines, Computer Networks. 33(2000)431-447
[18] G.T. Wang, F. Xie, F. Tsunoda, H. Maezawa, A.K. Onoma, Web Search with Personalization and Knowledge,
in: Proceedings of Multimedia Software Engineering, Fourth International Symposium, 2002
[19] IIRI BOF for DRIS, http://www.ietf.org/ietf/04mar/iiri.txt
13
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于DNS的网页搜索引擎(3)在线全文阅读。
相关推荐: