12个。允许用户根据各自需要扩充元数据元素,但必须符合本规范元素定义格式和技术规范。
该规范的核心元数据元素依据其描述的内容和类别分为三类:资源内容描述类,包括标题、学科、关键词、描述、来源、语种、关系、覆盖范围、适用对象、目录项10个数据元素;知识产权信息类,包括作者、出版者、其它作者、权限管理、版本5个核心元素;外部属性描述类,包括日期、类型、格式、标识、评价、评价者、元元数据方案、目的8个核心元素。必需元素包括标题、学科、关键词、描述、标识、格式、日期、语种、类型、作者、适用对象11个核心元素。
本课题在此研究的基础上,结合电子游戏网站的自身的特点,改进了初期由分析游戏类网站页面特征得到的描述具体电子游戏的核心元素,制定了描述电子游戏资源的元数据,详见表2-2。
14
第二章 电子游戏资源分析
表2-2 改进后的电子游戏资源元数据
元素 标识 标题 内容描述 上传者 收录时间 类型 含义 (ID)惟一标志该电子游戏资源,由系统自动生成。 (Name)电子游戏名称。 (G_Content)关于电子游戏的介绍。 (upLoder)上传者,若是系统自动发现,则默认“CPU”。 (upTime)上传时间,若系统自己发现,则默认为发现该游戏时间。 (G_Sort)多元智能标注系统对此电子游戏的标注,以表明哪些游戏适合哪类智能不足的玩家使用。 来源 语种 (URL)此游戏来源的网址。 (Language)电子游戏中使用的语言。 改进之后的电子游戏元数据,提高了电子游戏资源库的共享性、可重用性,增加了用户利用资源进的便捷性。
2.4 本章小结
本章首先介绍了电子游戏资源库与具体资源建设时应该遵循的标准——CELTS标准,然后对资源库和库中游戏资源进行介绍,指出资源库中的电子游戏资源并不是具体的电子游戏,而是关于某个电子游戏资源的描述。同时,根据对样本页面特征的分析,定义了电子游戏的核心元素结构,为以后的程序设计打下基础,然后根据CELTS标准将该结构完善化,提出电子游戏资源的元数据,建立资源库。
15
第三章 电子游戏资源自动搜集的关键技术及改进
第三章 电子游戏资源自动搜集的关键技术及改进
电子游戏教学资源库的核心是一个电子游戏资源自动搜集系统,基于电子游戏资源的自动搜集主要是针对互联网上丰富的电子游戏的描述信息,这些信息分布在不同的WEB站点中,内容大多是关于其一类或一种游戏的描述,诸如游戏名称、介绍等,而且结构各不相同,这种信息为自动搜集带来了一定的困难。
借鉴并运用已有的计算机技术发现互联网上的目标页面保存下来,并抽取出目标页面中的电子游戏描述信息是我们的研究出发点。因此,本章主要介绍了信息自动搜集中涉及到的主题式爬虫技术与信息抽取技术,同时对主题爬虫的关键部分——相关度判定进行改进,在3.1.3小节作了介绍。
3.1 主题式爬虫
信息搜索技术在网络信息资源查找中有着重要的作用,它可以帮助用户从数以亿计的网络信息中找到自己想要的信息。搜索引擎技术就属于一种信息搜索技术,本系统中关注的是搜索引擎中核心技术——爬虫。
爬虫(Crawler,也可以称作Spider、Robot)从一个URL种子队列出发,通过HTTP协议请求沿着超级链接在互联网上爬行Web页面,分析页面并提取链接,加入URL队列,同时将搜索到的网页抓取下来存储到数据库中。目前的爬虫技术大多数是面向所有信息的,可以称之为综合性爬虫,比如通用搜索引擎——Google、百度、雅虎等,它不对队列中的URL进行分析,而是全部下载到本地数据库。但随着信息多元化的增长,综合性爬虫已经显然不能满足那些对信息的需求定位在受限领域和特定主题的用户更深入的查询检查需求,而且,适用于所有信息的综合性爬虫的更新效率和爬行效率都很低。在这种形势下,主题式爬虫产生并发展起来。
主题式爬虫(Focus-Crawler)是近些年来兴起的研究热点,最初的设计思想是考虑对页面的过滤,不像普通爬虫对所有页面的链接进行处理。它首先对页面与受限领域的主题相关度进行分析,只有当某个页面的主题相关度符合要求时,该页面中的链接才会被处理。这是基于这样一种理念,如果该页面和本领域比较相关,它所包含的链接和领域相关的几率也较大。与综合性爬虫相比,这样做提高了爬行精度,虽然会遗漏部分页面,但综合效果是令人满意的。一个设计优良的主题爬虫应该包括主题的确立、种子库、相关度分析等几个模块。如图3-1所示。
16
第三章 电子游戏资源自动搜集的关键技术及改进
图3-1 主题爬虫结构图
其中,eGameCrawlar是抓取电子游戏类网页的主题爬虫,关键词库与种子库是两个辅助模块,不参与数据流处理。eGameCrawlar从种子库中提取URL作为爬行起点,取回网页,调用相关度分析模块,对网页进行相关度分析,如果符合主题,则进入网页数据库保存,否则舍弃。种子库会以某种策略保持更新,直至没有新的URL时,爬行结束。
本文采用的是基于关键词的主题相关度分析,因此,建立一个优良的关键词库,是本系统执行效率的保证。因此本节将在3.1.1小节给出关键词库建立步骤,3.1.2小节将介绍种子库的设计,3.1.3小节将对相关度的判定做出分析。
3.1.1 关键词库的设计
电子游戏资源自动搜索系统中完成数据采集工作的网络爬虫模块(eGameCrawler)需要一个主题词库(TopicLib表,或称之为关键词库)和一个种子库(CoreURL表),作为爬虫工作的先决条件。主题词库的建立是该系统的核心技术,同样也是爬虫的主题确定模块,为此,下面详细说明关键词表的来源和确定的细节。
3.1.1.1 词库构成
爬虫的主题确定模块——关键词库在数据库中以一张数据表的形式存在(TopicLib表),它包含“关键词名”(word)与“权重值”(score)等几个字段,关键词名字段为电子游戏类网页中出现的能够代表这类网页特征的词,它可以是字、词、短语、词组,也可以是专业术语或别名。词库的设计直接关系到搜索的结果,所以要求这类词能够很好地体现网页的特征,以提高系统查全率与查准率。
本系统初始词库一共收录了四类共2042条中英文关键词,如表3-1所示。这些关键词来源主要有两个方面:一是来源于相关文献资料,二是来源于网络上人工收集的电子游戏类网页。我们人工下载了大量游戏类样本网页,并从中选取三千多个页面作为原始数据,构建样本网页文档集,采用手工摘录与机器自己摘录的方式从中提取有代表性的关键词。然后提交给项目组聘请的领域专家,由专家对关键词库进行评定,提供近义词以及上、下位概念词,删减不恰当的词以保证词库的高效性与权威性。关键词选择与权重计算的算法在下一节详细介绍。
17
第三章 电子游戏资源自动搜集的关键技术及改进
表3-1 关键词库组成
词条类别 词条数目 举例 专业类词汇 650 游戏名称词汇 598 游戏类别词汇 371 逻辑数学类、RPG 页面描述词汇 423 游戏介绍、操作指南 教育游戏、轻游戏 字母迷城、堆方块
3.1.1.2 权重分析
手工摘录要求我们仔细分析文献资料、样本网页,人工查找关键词。它操作简单,但工作量大,权值的量化定义不够精确,因此要结合机器自动摘录的方法来实现。机器自动摘录分为四个步骤:样本网页数据的预处理、中文分词、关键词提取与权重计算和后期整理。如图3-2所示。
图3-2 词库提取原理图
一、预处理
由于人工收集的网页文本中包含很多无关html标记、乱码等“噪声”,因此需要一个预处理模块将网页内容转换成计算机能够理解的文本文档。这一步可通过构造标签树的方法实现,系统输出为文本文档。经过标记预处理后,进入分词模块对文本文档进行分词。 二、中文分词
近年来,语言学界、人工智能领域和情报检索界的学者们在自动分词上进行了大量的研究,找到了许多种解决汉语分词的方法。目前经常使用的中文分词方法很多,比如:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、二次扫描法、高频词优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、语境相关法、全自动词典切词法、最少分词词频选择法、专家系统法、基于神经网络的分词法等22种。
通过以住的研究经验,笔者选择了一种比较适合本系统实际情况的分词方法――逆向最大匹配分词法,实验结果表明该方法很好的对实验样本进行了分词[6]。此部分输出为带有分词结果文本文档。 三、权重计算
在关键词选择与权重计算模块,采取的策略是基于统计学的方法,根据关键词出现的频率来计算其权重。但是存在一个问题,关键词不一定是统计词频最高的词,像“联系我们”、“email”等在任何一个网页都会大量出现,必须忽略这些的禁用词。经过分析,我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。
18
第三章 电子游戏资源自动搜集的关键技术及改进
通常来说一个关键词在同一个页面中出现的次数越多,权重越高,但如果在若干页面均出现,它的权重反而更低[14]。这种思想也符合香农的信息学理论。我们采用文本检索中最常用的向量权重计算机方法——TF-IDF。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用的加权技术。它是一种统计方法,用于评估一个字词对于一个文档集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在文档集中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级[15]。该方法有三个重要概念:
(1)关键词频率TF(term frequency):指的是特征项在文档中出现的次数,特征项可以是字、词、短语,不同类别的文档在某些特征项的出现频率上有很大的差异,因此频率信息是文本分类的重要参考之一。这个次数通常要被标准化,以防止它偏向于长文档(同一词语在长文档中可能会比短文档有更高的词频,而不管该词语重要与否)。
对于一个文档集中第j个文档中第i个关键词来说,它的词频tfi,j表示为:
tfi,j?其中,ni,j为该词在文档现次数之和。
ni,j?knk,j
dj中的出现次数,分母?nk,j为该文档所有关键词出
k(2)逆向文件频率IDF(inverse document frequency):是一个关键词普便重要性的度量,是关键词在文档集中分布情况的量化。单纯使用TF会使文档中的禁用词干扰特征权重的计算,禁用词在所有文档中出现的频率都比较高,对文档意义的贡献度却很小,为了处理这类禁用词以及接近禁用词的高频词,采用IDF,常用的计算方法是:
idfi?log(Nni?0.01)
其中,样本文档集总数计为N,ni表示N中出现第i个关键词的文档数。 (3)归一化因子(Normalization factor):各个分量进行标准化。
根据上述三个因素,我们作如下约定:关键词被表示成
dj??t1,jW1,j,t2,jW2,j,?,tn,jWn,j?;其中,ti,j为文档d
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库电子游戏教学资源库的设计与实现 - 图文(5)在线全文阅读。
相关推荐: