77范文网 - 专业文章范例文档资料分享平台

多维关联规则数据挖掘在税务数据分析中的研究与应用(2)

来源:网络收集 时间:2019-05-27 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

第一章 绪论

1.1论文研究背景及意义

随着计算机、网络、通讯等信息技术的高速发展,信息处理在整个社会规模上迅速产业化,企业和政府事务电子化的迅速普及都产生了大规模的数据,日益成熟的数据库系统和数据管理系统为这些海量数据的存储和管理提供了技术保证;另一方面,计算机网络技术的长足进步和网络规模的爆炸性增长,也为数据传输和远程共享交互提供了技术手段。伴随着数据的爆炸式增长,数据库中保存了大量未被开发利用的各个时期、各种系统遗留历史数据,这其中蕴含了大量的人们没有发现的信息和知识,如何快速、准确地从海量的数据中抽取出模式、找出数据变化规律和数据之间的相互依存关系,使人们能够从宏观的高层次的角度来审视数据,充分发掘数据潜力,指导人们的行为,为决策和科学发现提供有力的支持的问题被提出。

数据挖掘(Data Mining)就是为了解决这样的问题而被提出的。数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤。所谓数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息过程,自从被提出以来,它已经引起了学术界和工业界的广泛关注,还吸引了大批的研究者和开发者。这一学科是数据库技术、机器学习、人工智能、统计学、知识获取等多学科的交叉的产物。

关联规则(Association Rules)挖掘作为数据挖掘的一种重要模式,已成为数据挖掘领域的一个非常重要的研究课题。所谓关联规则就是:从海量数据库中提取给定数据中的有趣的模式,它在管理、生产控制、分析预测,科学探索等领域都有广泛的应用。

税务系统的信息化建设已经开展了十多年了,开发了大量的应用系统,在这些系统中存储了大量的数据。在这些海量数据中包含了大量的各种类型数据,例如:税收收入、企业销售收入、利润等数值型数据;是否重点税源、正常开业与否等布尔型数据;缴税日期、登记日期等日期型数据;行业类型、经济类型等分类信息等等。而现有税收分析决策中还大多依靠了人为的判断和统计方法,造成

6

了税收分析、计划和决策的简单化和经验化,对事物缺少准确和科学的判断和分析。因此,我们期望在税务系统中使用数据挖掘手段,通过细致分析涉税数据的领域特征,并采用理论研究、算法优化与实践相结合的方法,挖掘出这些数据中的有价值的知识,最终应用于税务系统决策分析中的应用,使得我们的计划编制更准确,分析更全面,决策更科学。

基于以上情况,本文依据税收数据的领域特征,结合遗传算法、蚁群算法等对多维数据以及多维多层数据的关联挖掘算法问题进行研究,并对改进的算法进行了实际验证。

1.2国内外的研究现状

自1993年R.Agrawal提出的这个概念之后,关联规则已被国内外的广大数据

库研究者广泛研究,提出了针对不同领域的多种算法和这些算法的改进方法。关联规则的研究主要是集中在算法和实施,理论上的研究主要是针对不同数据类型的最优算法,实际应用则强调关联规则与特定的领域的结合以及有效关联规则的确定问题。

Agrawal于1993年在文献【1】中第一次提出了关联规则的基本概念,并且给出了一个初始的AIS算法,Agrawal又于1995年在文献【2】中提出了经典的Apriori算法,这种多循环方式挖掘算法也奠定了关联规则算法的基础,该算法的思想在其他多个算法中被使用,同时文献【2】中还提出了一种改进的算法-AprioriTid算法和两个算法的结合AprioriHyTid算法,随后,许多研究者对Apriori算法进行了改进。Park等人提出的DHP【3】算法,他使用了Hash树的方法来高效的产生频繁集。Jiawei Han在文献[4]中提出了FP-growth算法,它不需要产生候选频繁集;它通过将数据库压缩到一棵频繁模式树来最终生成频繁集。文献[5]设计了一个基于划分(partition)的算法,通过将数据库划分成几个不相连的子块,分别求各自的频繁集,最后再生成全局的频繁集。文献[6]提出了基于采样的算法,先依据数据库中的采样数据产生规则,再得到全局的规则。文献[7]中提出了一种动态扫描数据库产生频繁集的DIC算法。

最早的数据挖掘算法针对的是事务数据的挖掘,其成功的应用也促使了它向其他数据库的渗透。数据仓库和联机分析处理(Online Analytical Processing,

7

OLAP)的发展,逐渐形成了多维和多层关联规则的挖掘算法。在文献[8]中,Han根据概念分层的定义,提出了多层关联规则的挖掘算法,这种挖掘以概化关联规则的形式研究关联规则,并提出了R-兴趣度度量,以删除冗余规则。Kaya和Alhajj在文献【9】提出一种挖掘交叉层之间关联规则的方法。Kamber,Han和Chiang在文献【10】中结合量化属性的静态离散化和数据立方体,提出了一种挖掘多维关联规则的方法。

随着关联规则应用领域的增加,其处理的信息类型也不单单是简单的事务数据,而涉及到如文本、图象、时间序列、空间数据等关联规则的挖掘。挖掘对象的变化也带动了相应算法的进一步改进。这些应用领域的增加,也使原有关联规则挖掘的理论和方法已不再适应,迫使人们不得不从其他学科和领域寻找新的思路,如模式识别、机器学习、人工智能技术。生物进化算法的理论的飞速发展和应用领域的不断增加,也使关联规则挖掘的研究者大量采用了其方法。文献【11】中采用了遗传算法来挖掘关联规则,研究者通过模拟生物进化机制,采用这种搜索和优化的算法,在实际应用也收到了良好的效果。由于遗传算法的研究的比较早,所以现在关联规则领域也大量使用了遗传算法作为挖掘的基本算法,并对其进行了多种改进[12]。

分析目前的研究和应用现状,数据挖掘还需要在如下几个方面重点展开工作:

? 数据挖掘的速度。现有的数据库向大型化发展,因此,需要我们对更

高的维、更多层次、更大量的数据进行挖掘。数据库中的容量甚至达到了TB字节。原有的算法可能会不能满足时间的需要,所以如何能够使得算法能够获得更高的计算效率,这是我们需要去研究的 ? 数据挖掘算法的可扩展性。目前算法的处理数据形式比较有限,大多

研究的是结构化的数据,如布尔类型、数值类型、分类类型等。对于半结构化和非结构化数据形式进行挖掘的相对研究较少。如何研究算法去支持更多类型数据的挖掘是一个现在需要解决的问题。 ? 数据挖掘的模式评估。数据挖掘系统能够发现成千上万的模式。但是

对于特定的用户,许多模式是表示公共知识或并不是用户感兴趣的。所以,关于模式兴趣度的评估技术的开发,基于用户的信赖或期望,

8

评估模式的价值的主观度量,仍然存在挑战性,仍然是一个活跃的研究领域[13]。

? 数据挖掘的交互和可视化。数据挖掘系统的基本框架和过程已经基本

成型,但是在不同阶段或者部件(如数据清理、离散化、知识形成等)方面仍需要细化和深入研究。提供良好的交互界面和可视化的方式,来增强知识的表达能力,来进一步的提高挖掘的效率,仍然是需要探索和实践的一个方向。

? 数据挖掘理论的研究。经过几十年的发展数据挖掘已经在继承和发展

基础学科(如机器学习、统计学等)方面取得了很大的进步,探索出了许多具有特色的理论体系。但是,新的应用和新的领域在不断的出现,其出现的新的理论是其必然的趋势。如何去适应新的领域,如何去完善关联规则的理论框架,这将是一个长期和艰巨的任务。

1.3 论文研究内容

本论文的研究遵从了从研究到实践的原则,研究工作分为以下几个部分。 (1) 基础理论研究。首先,我们介绍了关联规则的概念和一些基本理论,

并介绍了经典Apriori算法。随后,我们对遗传算法和蚁群算法的发展、理论、优缺点、适用领域等做了介绍和分析。

(2) 多维关联规则算法研究。研究了税务部门的数据结构特点,针对该

数据特征本论文通过融合遗传和蚁群算法,提出了一种新的多维关联规则挖掘算法,弥补了遗传算法和蚁群算法的各自的缺点,发挥了它们各自的优势,不仅提高了挖掘算法的时间效率,而且提高了算法的精度。

(3) 多层关联规则阈值策略研究。研究分析了现有的多层关联规则的阈

值策略框架,提出了一种新的启发式的多层关联规则多阈值定义策略框架,并结合遗传算法设计了多维多层关联规则的挖掘算法。算法最终提高了挖掘结果的有效率。

(4) 实例验证分析。最后,在理论研究的基础上,本文着眼于实际应用,

我们以宁波国家税务局的基础数据为挖掘对象,引入了本文提出的两个算法。设计了税务数据挖掘原型系统的框架,并开发原型系统进行实例验证。最终,应用于税务部门的数据挖掘,辅助税务部门的分析、计划和决策。

1.4 论文的结构

本文的行文结构如下:

9

第一章:首先,介绍了本论文研究的背景以及意义,然后,论文介绍了数据挖掘的产生背景以及关联规则的产生背景,并分析了关联规则在国内外的研究现状。在此基础上,提出了本文的研究内容。

第二章:介绍了关联规则的定义和分类,分析了关联规则中的经典算法。然后,分别又介绍了遗传算法的生物学理论、各自的工作过程和特点。 第三章:在上一章研究的基础上,详细剖析了遗传算法和蚁群算法的优缺点,结合现有税务部门的数据的特点。融合了遗传算法和蚁群算法,提出了一种新的多维关联规则挖掘算法。并最终通过实验验证了算法的性能和有效性。

第四章:分析了现有多层关联规则挖掘的阈值定义策略的不合理方面,针对这个缺点提出了一种新的启发式的多层关联规则多阈值定义策略框架,并结合遗传算法设计了多维多层关联规则的挖掘算法。最终通过实验验证了算法的有效性。

第五章:将上两章的关联规则挖掘算法应用于辅助税务部门的分析、计划和预测中。在税务机构的基础数据上,设计并实现了税务数据挖掘原型系统,并对最终的挖掘出的结果做了分析和评价。

第六章:结束语

1.5 小结

本章介绍了数据挖掘研究的意义和技术背景、本论文研究的背景以及意义,

然后,论文介绍了数据挖掘的产生背景以及关联规则的产生背景,并分析了关联规则在国内外的研究现状和提出了本文的研究内容等。数据挖掘正在以一种全新的概念改变我们利用数据的方式,经过几十年的研究和发展,数据挖掘已经融合了许多学科的最新研究成果而形成独具特色的研究领域。我们在充分了解基本概念和主要技术的发展状况前提下,有选择的进行重点研究。本论文中的研究主要包括了关联规则算法的研究。

10

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库多维关联规则数据挖掘在税务数据分析中的研究与应用(2)在线全文阅读。

多维关联规则数据挖掘在税务数据分析中的研究与应用(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/642654.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: