77范文网 - 专业文章范例文档资料分享平台

分词技术在电子商务信息查询中的应用(5)

来源:网络收集 时间:2019-06-11 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

探究搜索引擎

图3.1

“网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成“索引数据库”。同时进行“链接信息提取”,把链接信息(包括锚文本、链接本身等信息)送入“链接数据库”,为“网页评级”提供依据。“用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“用户”。

第22页 共29页

分词技术在电子商务信息查询中的应用

3.3 电子商务搜索引擎的形式

目前电子商务搜索引擎主要有以下两种实现形式:①以生意经、商务搜、金泉网、企搜为代表的独立搜索引擎,该类搜索网站的页面与通用搜索引擎网站的页面形式几乎完全一致,区别在于内容主要是针对商业用户使用者。独立搜索引擎的优势在于访问者和投放广告者在参与上更为自由,可以获得更多的信息和受众。但同时这也是其缺陷所在,由于开放度过高,将不可避免的出现诚信问题。以阿里巴巴、淘宝网、慧聪网为代表, 表现形式为电子商务网站站内搜索。这类搜索引擎由于以网站的会员制为基础,有资质认证体系为保障,因此诚信问题出现的概率较小。但站内搜索的缺点在于开放性不够,搜索和推广只局限在会员之间。

第23页 共29页

分词技术案例分析

第4章 分词技术案例分析

看一下中国三大搜索引擎的分词技术。我们的三大搜索引擎都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。

4.1 百度分词技术分析

4.1.1 最大分词词长

对于大于等于4个汉字的词将被分词。如下图:

图4.1

第24页 共29页

分词技术在电子商务信息查询中的应用

4.1.2 分词算法

查询:“工地方向导”正向最大匹配: 工地/方向/导;反向最大匹配: 工/地方/向导。百度采用正向最大匹配算法:

图4.2

第25页 共29页

分词技术案例分析

4.2 分析语句“红色摇滚很搞笑”

从拆词的情况来看,谷歌竟然并没有把“摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索“摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”

图4.3

雅虎比谷歌更懂中文!

图4.4

最后一个,就是业界一直盛传的百度的分词技术了,把“红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!

第26页 共29页

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库分词技术在电子商务信息查询中的应用(5)在线全文阅读。

分词技术在电子商务信息查询中的应用(5).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/658090.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: