探究搜索引擎
图3.1
“网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成“索引数据库”。同时进行“链接信息提取”,把链接信息(包括锚文本、链接本身等信息)送入“链接数据库”,为“网页评级”提供依据。“用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“用户”。
第22页 共29页
分词技术在电子商务信息查询中的应用
3.3 电子商务搜索引擎的形式
目前电子商务搜索引擎主要有以下两种实现形式:①以生意经、商务搜、金泉网、企搜为代表的独立搜索引擎,该类搜索网站的页面与通用搜索引擎网站的页面形式几乎完全一致,区别在于内容主要是针对商业用户使用者。独立搜索引擎的优势在于访问者和投放广告者在参与上更为自由,可以获得更多的信息和受众。但同时这也是其缺陷所在,由于开放度过高,将不可避免的出现诚信问题。以阿里巴巴、淘宝网、慧聪网为代表, 表现形式为电子商务网站站内搜索。这类搜索引擎由于以网站的会员制为基础,有资质认证体系为保障,因此诚信问题出现的概率较小。但站内搜索的缺点在于开放性不够,搜索和推广只局限在会员之间。
第23页 共29页
分词技术案例分析
第4章 分词技术案例分析
看一下中国三大搜索引擎的分词技术。我们的三大搜索引擎都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。
4.1 百度分词技术分析
4.1.1 最大分词词长
对于大于等于4个汉字的词将被分词。如下图:
图4.1
第24页 共29页
分词技术在电子商务信息查询中的应用
4.1.2 分词算法
查询:“工地方向导”正向最大匹配: 工地/方向/导;反向最大匹配: 工/地方/向导。百度采用正向最大匹配算法:
图4.2
第25页 共29页
分词技术案例分析
4.2 分析语句“红色摇滚很搞笑”
从拆词的情况来看,谷歌竟然并没有把“摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索“摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”
图4.3
雅虎比谷歌更懂中文!
图4.4
最后一个,就是业界一直盛传的百度的分词技术了,把“红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!
第26页 共29页
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库分词技术在电子商务信息查询中的应用(5)在线全文阅读。
相关推荐: