数据挖掘实验指导书(4)

来源：网络收集时间：2018-12-22 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:或QQ：处理（尽可能给您提供完整文档），感谢您的支持与谅解。

长沙学院信息与计算科学系数据挖掘实验指导书

4 5 6 7 8 9 10 11 12 13 14 >40 >40 >40 31~40 ≦30 ≦30 >40 ≦30 31~40 31~40 >40 med Low Low Low Med Low Med Med Med High med No Yes Yes Yes No Yes Yes Yes No Yes No Fair Fair Excellent Excellent Fair Fair Fair Excellent Excellent Fair Excellent Yes Yes No Yes No Yes Yes Yes Yes Yes No B、对数据中的枚举类型数据进行转换以便于数据处理：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 0 0 1 2 2 2 1 0 0 2 0 1 1 2 1 0 0 0 1 2 2 2 1 2 1 1 1 0 1 2 0 0 0 0 1 1 1 0 1 1 1 0 1 0 3 0 1 0 0 0 1 1 0 0 0 1 1 0 1 ClassNo 0 0 1 1 1 0 1 0 1 1 1 1 1 0 4.3 计算训练数据集数据中各属性在各类中的概率分布情况如图3-1所示 4.4 利用测试数据计算贝叶斯算法的分类精度如图3-2所示

第16页

长沙学院信息与计算科学系数据挖掘实验指导书

No AttributeDistribute[i][DataBase[j][i]][DataBase[j][AttSetSize-1]]++ AttributeDistribute[i][0][DataBase[j][AttSetSize-1]]++ Yes No j 图3-1 训练数据集各属性的概率分布计算

第17页

长沙学院信息与计算科学系数据挖掘实验指导书

申请ClassSize*ClassSize个空间?Precise Presize?0 ; AttrClassDis?0 For (i=0;i

图3-2 贝叶斯算法的分类精度计算

4.5 输出分类结果

For (i=0;i

For (j=0;j

printf(“\\n\\nTotal Correct is%d”,TotalCorrect);

五、注意事项

注意单个样例数据的概率计算与各字段的概率计算的关系

第18页

长沙学院信息与计算科学系数据挖掘实验指导书

实验五 Apriori算法实现

一、实验目的

1、掌握Apriori算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程； 2、根据算法描述编程实现算法，调试运行。并结合相关实验数据进行应用，得到分析结果。数据和删除数据的操作。实验类型：验证计划课间：2学时

二、实验内容

1、频繁项集的生成与Apriori算法实现；

2、关联规则的生成过程与Rule-generate算法实现； 3、结合样例对算法进行分析；

三、实验步骤

编写程序完成下列算法： 1、Apriori算法

输入：数据集D；最小支持数minsup_count；输出：频繁项目集L L1={large 1-itemsets} For (k=2; Lk-1≠Φ; k++)

Ck=apriori-gen (Lk-1); // Ck是k个元素的候选集 For all transactions t∈D do

begin Ct=subset(Ck,t); //Ct是所有t包含的候选集元素 for all candidates c ∈Ct do c.count++; end

Lk={c ∈Ck| c.count ≧ minsup_count } End L=∪Lk;

2、apriori-gen (Lk-1) 候选集产生算法输入： (k-1)-频繁项目集Lk-1 输出： k-频繁项目集Ck

第19页

长沙学院信息与计算科学系数据挖掘实验指导书

For all itemset p∈Lk-1 do For all itemset q∈Lk-1 do

If p.item1=q.item1, p.item2=q.item2, …,p.itemk-2=q.itemk-2, p.itemk-1

if has_infrequent_subset(c, Lk-1) then delete c else add c to Ck End Return Ck

3、has_infrequent_subset(c, Lk-1) 功能：判断候选集的元素

输入：一个k-频繁项目集Lk-1 ，(k-1)-频繁项目集Lk-1 输出：c是否从候选集中删除的布尔判断 For all (k-1)-subsets of c do If Not(S∈Lk-1) THEN return TRUE; Return FALSE;

4、Rule-generate(L,minconf) 输入：频繁项目集；最小信任度输出：强关联规则算法：

FOR each frequent itemset lk in L generules(lk,lk);

5、Genrules递归算法：

Genrules(lk:frequent k-itemset, xm:frequent m-itemset) X={(m-1)-itemsets xm-1 | xm-1 in xm}; For each xm-1 in X

BEGIN conf=support(lk)/support(xm-1); IF (conf≧minconf) THEN

第20页

长沙学院信息与计算科学系数据挖掘实验指导书

BEGIN

输出规则:xm-1->(lk-xm-1),support,confidence; IF (m-1)>1) THEN genrules(lk,xm-1); END; END;

结合相关样例数据对算法进行调试，并根据相关实验结果对数据进行分析，四、实验报告要求

1、用C语言实现上述相关算法。

2、实验操作步骤和实验结果，实验中出现的问题和解决方法。五、注意事项

1、集合的表示及相关操作的实现； 2、项目集的数据结构描述；

第21页

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，免费范文网，提供经典小说综合文库数据挖掘实验指导书(4)在线全文阅读。

数据挖掘实验指导书(4).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.77cn.com.cn/wenku/zonghe/384158.html（转载请注明文章来源）

上一篇：特种车电子教案
下一篇：会销讲师开场白的精辟总结