分词技术在电子商务信息查询中的应用
2.3分词技术的最新发展
无长度限制,并且在歧义内容方面将出现歧义的各种可能性都包含进去,作为分词的参考。
例如:感冒、感冒解痛散、感冒解痛颗粒、感冒解痛灵茶等都能匹配。
图2.3
第17页 共29页
探究搜索引擎
第3章 探究搜索引擎
3.1 搜索引擎
3.1.1 搜索引擎的理解
搜索引擎(SearchEngine)通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。 3.1.2 我国搜索引擎的背景
百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家(www.linkist.com)技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。
那么缘何能得出如此结论呢?CNNIC第十四次互联网调查显示,搜索以
71.9%的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户非常
第18页 共29页
分词技术在电子商务信息查询中的应用
麻烦的寻找,要耗费大量的精力和时间,几乎是不可能实现的任务。 3.1.3 搜索引擎的现状
随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速的找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,而垂直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分类,过滤筛选等,信息定位更精准,因此在此垂直领域或行业提供的搜索服务势必更好更强,更为用户所欢迎。比如,对于一个网民来说如果有对特定的领域或行业的信息需求的时候,如果一个是专业的垂直搜索能做到精确锁定内容,但内容量偏小,而另一个是能检索出大量内容,但搜索到的内容一大部分都是“垃圾”并且很难找到符合的信息,这样的话,你会选择哪个呢,就如用户想购买一个商品,他是会去专门的比价购物搜索引擎上找还是会去 Google上找,如果你想找一份工作,是会去专门的工作搜索引擎上找还是会去百度上找?答案很明显,更多的用户会舍弃后者,即使前者品牌小名声小,但结果往往是最令网民看重的。联络家LINKIST一直做人脉交际圈的拓展,也就是现在炙手可热的 SNS网站,SNS网站的目的就是要建立一个庞大的人脉圈,参与其中的人都能通过站内人脉的搜索引擎找到自己想找的人,可以找工作、搜罗人才、寻找合作商机。联络家LINKIST短短几个月的时间已经聚敛起了近7万多位高级商务人士。有了一定的用户基础做铺垫,联络家LINKIST目前大力开发人脉专业领域的垂直搜索引擎,如工作搜索引擎的人脉搜索引擎,而这比以往的“贴简历、翻招聘信息”的机械作法要灵活的多。而且,能做出这样的预测显然并不是空穴来风。据记者了解,现在搜索市场大量的的垂直专业搜索引擎的诞生如雨后春笋般, 如比价
第19页 共29页
探究搜索引擎
购物搜索引擎,工作搜索引擎,博客搜索引擎等等,占了百度几乎一半以上的流量的MP3搜索,其实也可以说是专业的搜索MP3的垂直搜索引擎,许多垂直门户也纷纷推出了自己的搜索引擎系统。那么,像Google、百度能会不会通过“补课”挤掉这部分专用搜索市场呢?冉先生对记者表示,Google、百度注定了走的是大而全的粗犷路线,而专用的垂直搜索引擎则不同,需要对做内容的深度挖掘,做精细的分类,构建专业领域的知识库体系等等,而这些都是Google、百度等无法做到的,他们根本就没有精力做这些,也不可能针对每个行业领域都能做透,“术业有专攻”就是这个道理。就象门户网站与专业垂直的行业性网站可以共存一样,网民也有不同的胃口,有的仅仅是简单模糊的信息就已经满足了,而一些寻找精确内容的网民则更青睐于专业引擎,比如你打算换一份工作,以前去人才招聘网站贴简历往往都尿杳无音信,现在,就可以去联络家LINKIST试试,还能跟同行的朋友交换下最新的行业信息,探讨下行业发展趋势。而且,以后联络家 LINKIST推出人脉引擎后,只需轻轻点击便能收获颇丰。有专家预测,未来,专业的垂直搜索将掀起一轮热潮,而且,垂直搜索引擎不会是一个简单的文本框、一个按纽就走遍天下了,更需要专业的信息辅助和配套的增值内容的支持,也就是对相关内容的二次“加工”。而这恰恰是Google、百度类所不能提供的。相信,届时很多VC的眼球会聚焦于此,而Google、百度又将面临怎样的挑战呢?我们只能拭目以待了 。
3.2 搜索引擎的实现原理
3.2.1 从互联网上抓取网页
利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。
第20页 共29页
分词技术在电子商务信息查询中的应用
3.2.2 建立索引数据库
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 3.2.3 在索引数据库中搜索
当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。 3.2.4 对搜索结果进行处理排序
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述:
第21页 共29页
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库分词技术在电子商务信息查询中的应用(4)在线全文阅读。
相关推荐: