77范文网 - 专业文章范例文档资料分享平台

电子游戏教学资源库的设计与实现 - 图文(8)

来源:网络收集 时间:2019-04-23 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

Text1…

Text2…

29

第三章 电子游戏资源自动搜集的关键技术及改进

上面这段HTML代码描述的是一个虽然简单但很典型的网页文档,包含了标题、表格、段落等信息,通过对这段代码的结构化分析即可将其转化为如图3-3所示的DOM树。

图3-3 DOM树

在一个DOM树中,想要查找节点,首先要定位 DOM 节点。通过节点间的关系访问节点树中的节点,通常称为定位节点 (\)[26]。在 XML DOM 中,节点的关系被定义为节点的属性:

parentNode:父亲节点; childNodes:孩子节点; firstChild:第一个孩子; lastChild:最后一个孩子; nextSibling:上一个兄弟节点; previousSibling:前一个兄弟节点。

在网页中,一般采用表格()或层()来布局,一个电子游戏核心元素结构表示一个电子游戏的描述,因此它往往出现在DOM树的相同或相近的层上(同级),三个元素之间可能是Sibling关系,当在DOM树的这一层遍历的时候就可以记录标志电子游戏的核心元素的三部分。

笔者的做法是,在进行节点遍历时,首先查找以jpg\\gif\\exe\\swf为后缀的代码段,在其上级节点标签(或同级)进行内容匹配,根据粗体标记、字号等匹配标题,根据预先导入的标志游戏介绍部分的关键词库匹配游戏介绍,词库见表3-2所示。

30

第三章 电子游戏资源自动搜集的关键技术及改进

表3-2 关键词库

标志“游戏介绍”的关键词库: 介绍 指南 说明 特色 操作 攻略 提示 简介 游戏介绍 游戏说明 游戏攻略 游戏操作说明 游戏特色 操作指南 操作说明 玩法简介 游戏简介 友情提示 步骤如下:

Step1:将预处理后的网页读入内存,把标志游戏介绍部分的关键词库载入内存; Step2:将网页的HTML代码转化成DOM树结构,并将DOM树的根节点作为当前节点; Step3:遍历树中的每一个节点;

Step4:当发现table或div标记时,在一个节点块中查找*.jpg或*.gif或*.exe或

*.swf,如果为真则转入5;

Step5:在此节点块的上层,查找纯文本信息,计算字号,与已存的字号变量比较大小,

如果此文本在本面中所有文本中字号最大,则存入“name”变量。同时查找书名号(《》),粗休标记()或标题字标记(),如果找到,则存入“name”变量;

Step6:在此节点块相同或上层块中,根据预先导入的关键词库,匹配游戏介绍的关键

词,如果有则存入“G_Content”变量;

Step7:判断是否已经遍历完整个DOM树,是则进入步骤8,否则进入步骤3分析下一

个节点;

Step8:程序结束。

提取算法的核心就是按照“从上到下,从左到右”的次序深度遍历DOM树的过程,在遍历的同时根据规则集对当前节点进行测试,得到符合条件的数据项暂存起来,当遍历完整个DOM树时,则一个主题的信息提取完成。

3.2.2.4 手工方式

手工方式由两个部分组成,一是由系统管理员完成,对主题爬虫抓取的网页进行人工信息摄取,根据电子游戏的元数据完善资源库。二是由用户完成,在系统的前台用户交互设计部分,设计支持用户上传电子游戏的平台,发挥互联网的资源共享性。对上传来的信息,由系统管理员整理,按要求存入数据库。

3.3 本章小节

本章介绍了电子游戏资源自动搜集的关键核心技术——主题式爬虫技术与电子游戏主题信息抽取技术,同时,结合本系统的实际情况对相关技术进行了改进并给出了详细介绍。 前者实现了在互联网上对相关网页的抓取,后者实现了对抓取下来的页面内的敏感信息抽取,完善资源库的元数据,为资源库建设服务。

31

第四章 电子游戏教学资源库原型设计

第四章 电子游戏教学资源库原型设计

在前面的章节里,论述了电子游戏教学资源库的系统框架,并研究了其中的若干关键技术,提出了基于游戏的元数据建设资源库的方案。以上述研究为基础,本章设计实现了针对互联网上的分布式的电子游戏资源搜集并结构化存储的资源库系统原型。

系统对电子游戏的信息数据进行整合并按一定的模式存放到本地数据库中,利用数据库的各种方法对抽取的数据直接进行查询和操纵,为资源库服务。

4.1 系统功能结构

原型系统是针对互联网上的电子游戏描述信息进行搜集的系统,通过抓取和处理目标信息页面,将不同形式的游戏描述信息转化成符合一定格式的结构化信息,存取在数据库中,为教学资源库服务。通过笔者所在实验室的其它项目组开发的电子游戏多元智能标注系统为数据库的信息打上多元智能标签,同时结合多元智能量表测试系统,为某些智能有缺陷的用户推送打有相关标签的电子游戏。根据系统需求设计出如下系统结构,如图4-1所示:

图4-1 原型系统结构图

32

第四章 电子游戏教学资源库原型设计

系统主要分为三个部分来实现,第一部分是网络爬虫模块,负责抓取、下载电子游戏相关的网页,存入网页数据库(DateBase1)保存;第二部分是电子游戏主题信息抽取模块,负责分析网页数据库中的网面数据,抽取主题信息,结构化存入游戏资源数据库(DB2);第三部分是前台交互模块,负责与用户交互。具体功能如下: 一、网络爬虫模块

网络爬虫模块是系统的后台部分,通过使用一个关键词库和初始种子队列在互联网上爬行,同时对页面进行相关度判定,选择相关下载并保存在网页数据库。这个模块要完成主题词库与种子库设计以及网页主题相关度的计算,根据要求保存相关的页面,模块运行的结果是网页数据库中存放的都是主题相关网页。 二、电子游戏主题信息抽取模块

电子游戏主题信息抽取模块也是系统的后台部分,根据规则集对网页数据库中保存的主题网页进行处理,抽取主题信息。完成对游戏名称、游戏介绍等敏感信息的提取,并按元数据的结构,存入游戏资源数据库中,为教学资源库服务。具体完成的工作有:①析网页特征,制定规则集,制定标志“游戏介绍”的关键词库。②⑵网页预处理,DOM树转换、去除广告等无关信息。③根据规则集对主题网页进行信息抽取,结构化入库保存。 三、前台交互模块

前台交互模块是系统的前台部分,以门户网站形式建立,提供用户接口,供用户查询检索游戏资源。同时在前台设计兼容多元智能标注模块与量表评测模块的部分。

用户可以通过交互模块中进入量表评测模块进行多元智能的评测,以测试自己哪类智能或哪些智能需要改善;游戏资源数据库(DB2)中的游戏信息经过多元智能标注模块为每个游戏打上多元智能的标签,表明这类游戏可以提高哪项或哪些智能。这样,可以为做过量表测试模块的用户推送相关游戏。

4.2 系统设计

本系统主要使用Microsoft Visual Studio 2005、IIS5.1和SQL Server 2000开发环境,采用本身内置了HTTP访问和多线程的能力的C#语言编写。这样的架构保证整个系统具有较好的兼容性和快速的开发速度,以利于将研究精力集中到模型的建构与算法的实现上。后台为Windows应用程序和控制台应用程序,客户端采用B/S应用架构,即用户工作界面是通过WWW浏览器来实现,前端(Browser)实现极少部分的事务逻辑,主要的事务逻辑在服务器端(Server)实现[29]。

整个系统由Manager类从全局上管理线程,控制种子网址的分配,各个具体的线程由Worker类的方法管理。

Manager类管理分配线程,控制每个线程的状态,定义相应的事件。程序中用到的未下载队列、已下载队列、当前队列、worker队列都由Manager类定义。主要方法包括:Start()方法用来启动一个线程;LoadTask()方法用来加载任务,从数据库中加载种子网站;GetThreadStatus()方法用来获得当前所有线程状态;StopTask()用来停止任务的执行。

33

第四章 电子游戏教学资源库原型设计

Worker类具体负责下载的类,从Manager的种子队列中分配一个种子网址,并进行下载,下载到页面之后分析网页中的所有链接,计算相关度,相关度高的入种子队列,最后将网页源文本存放到数据库。该类用到三个主要属性,Manager标记当前管理者;Name标记只读当前线程名;Url标记当前正在处理的URL。具体流程如下:

Step1:Worker.Run()从队列中取种子网址,调用Download(url);

Step2: Worker.Download(url)方法下载WEB页面(以二进制格式或文本类型存储),

调用ProcessPage(buffer);

Step3: ProcessPage(text)方法调用ScanURLs(text)发现新链接,调用Save2Database

(text)保存到数据库;

Step4: 种子库的更新:继续调用ScanURLs (text)方法发现新链接,做相关度判定,

关于判定算法,上文已做过详细介绍,即大于阈值时调用AddUrl2Queue()插入到种子队列中。

Step5:调用信息抽取程序,对主题页面进行信息提取,保存在GAMEINFO表中。 程序运行过程中需要对一些事件进行判断以保证正常运行。例如处理网络是否通畅可以通过停止线程,等待指定一定时间后重试的方法;内存与硬盘是否够用可以通过通知用户减少线程数以等待用户解决等等。

下面是系统相关部分的截图:

图4-2 主题爬虫截图

34

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库电子游戏教学资源库的设计与实现 - 图文(8)在线全文阅读。

电子游戏教学资源库的设计与实现 - 图文(8).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/622045.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: