77范文网 - 专业文章范例文档资料分享平台

数据挖掘考试题库(4)

来源:网络收集 时间:2020-03-26 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

* 划分为等频箱:- 箱 1: 4, 8, 9, 15-箱2: 21, 21, 24, 25-箱3: 26, 28, 29,

34

* 用箱均值光滑:-箱1: 9, 9, 9, 9 -箱2: 23, 23, 23, 23 -箱3: 29, 29, 29,

29

* 用箱边界光滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26,

26, 34

2)回归,让数据适合一个函数(如回归函数)来平滑数据。

3)聚类 聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也

就是噪声数据;

不一致数据:许多情况下,所记录的数据可能不一致,这是多方面的因素,比如,由于编码或表示不同,在数据集成的时候,就有可能造成不一致。 规范化的方法:

1)最小—最大规范化 :对原始数据进行变换。假定A的属性最大值和最小值分别是MAX,MIX ,设A中的任一值是V,则V的值经过规范化后则为:V’=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中规范化后的区间是[NEW_min, NEW_max]

例如:income的最大,最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686 2)z-score规范化(或零—均值规范化):就是属性A的值基于A的平均值和标准差规范。假设A的值V规范后为V’,则公式为: V’=(V-AVG(A))/A的标准差

假设属性income的平均值和方差分别为:5400,1600,则值7360的规范后的值为: (7360-5400)/1600=1。225

3)小数定标化:就是科学表示法的形式,将属性的值映射到[0,1]之间。将小数点的位置规范化,小数点的移动根据属性的最大绝对值。如将A属性的值35规范后为:35/100=0.35

属性构造:是由给定的属性构造和添加新的属性,以有利于挖掘。比如,我们根据属性heigh 和width可以构造 area属性。通过这种组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现有用的。

数值归约(1)----直方图:数值归约:通过用替代的,较小的数据表示形式来减少数据量。

直方图:使用分箱技术近似数据分布,

数值归约(2)----聚类

数据挖掘的各种算法

掌握每种算法的基本思想,优缺点,是否是有监督的挖掘方法等? 一、 Apriori算法的基本思想,如何采用Apriori来挖掘频繁模式 需要了解的基础知识:

关联规则判断标准

1、支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。

规则X?Y在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联

是否是普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为:support(X?Y)= P(XY)

2、置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。 ? 连接:用Lk-1自连接得到Ck

? 修剪:一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。 Apriori 算法:使用候选产生频繁项集

例1:假设最小支持度为30%,最小置信度为60%。

第一步:产生频繁1-项集(即满足最小支持度要求);第二步:再次扫描数据库,产生后候选2-项集:

第三步:产生频繁3-项集; 第四集:从满足条件的频繁2-项集中构造关联规则:

第五步:重复第二步,产生候选3-项集;

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库数据挖掘考试题库(4)在线全文阅读。

数据挖掘考试题库(4).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/jiaoyu/874096.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: