长沙学院信息与计算科学系 数据挖掘实验指导书
4 5 6 7 8 9 10 11 12 13 14 >40 >40 >40 31~40 ≦30 ≦30 >40 ≦30 31~40 31~40 >40 med Low Low Low Med Low Med Med Med High med No Yes Yes Yes No Yes Yes Yes No Yes No Fair Fair Excellent Excellent Fair Fair Fair Excellent Excellent Fair Excellent Yes Yes No Yes No Yes Yes Yes Yes Yes No B、对数据中的枚举类型数据进行转换以便于数据处理:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 0 0 1 2 2 2 1 0 0 2 0 1 1 2 1 0 0 0 1 2 2 2 1 2 1 1 1 0 1 2 0 0 0 0 1 1 1 0 1 1 1 0 1 0 3 0 1 0 0 0 1 1 0 0 0 1 1 0 1 ClassNo 0 0 1 1 1 0 1 0 1 1 1 1 1 0 4.3 计算训练数据集数据中各属性在各类中的概率分布情况如图3-1所示 4.4 利用测试数据计算贝叶斯算法的分类精度如图3-2所示
第16页
长沙学院信息与计算科学系 数据挖掘实验指导书
No AttributeDistribute[i][DataBase[j][i]][DataBase[j][AttSetSize-1]]++ AttributeDistribute[i][0][DataBase[j][AttSetSize-1]]++ Yes No j 图3-1 训练数据集各属性的概率分布计算
第17页
长沙学院信息与计算科学系 数据挖掘实验指导书
申请ClassSize*ClassSize个空间?Precise Presize?0 ; AttrClassDis?0 For (i=0;i 图3-2 贝叶斯算法的分类精度计算 4.5 输出分类结果 For (i=0;i For (j=0;j printf(“\\n\\nTotal Correct is%d”,TotalCorrect); 五、注意事项 注意单个样例数据的概率计算与各字段的概率计算的关系 第18页 长沙学院信息与计算科学系 数据挖掘实验指导书 实验五 Apriori算法实现 一、实验目的 1、掌握Apriori算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程; 2、根据算法描述编程实现算法,调试运行。并结合相关实验数据进行应用,得到分析结果。 数据和删除数据的操作。 实验类型:验证 计划课间:2学时 二、实验内容 1、频繁项集的生成与Apriori算法实现; 2、关联规则的生成过程与Rule-generate算法实现; 3、结合样例对算法进行分析; 三、实验步骤 编写程序完成下列算法: 1、Apriori算法 输入: 数据集D;最小支持数minsup_count; 输出: 频繁项目集L L1={large 1-itemsets} For (k=2; Lk-1≠Φ; k++) Ck=apriori-gen (Lk-1); // Ck是k个元素的候选集 For all transactions t∈D do begin Ct=subset(Ck,t); //Ct是所有t包含的候选集元素 for all candidates c ∈Ct do c.count++; end Lk={c ∈Ck| c.count ≧ minsup_count } End L=∪Lk; 2、apriori-gen (Lk-1) 候选集产生算法 输入: (k-1)-频繁项目集Lk-1 输出: k-频繁项目集Ck 第19页 长沙学院信息与计算科学系 数据挖掘实验指导书 For all itemset p∈Lk-1 do For all itemset q∈Lk-1 do If p.item1=q.item1, p.item2=q.item2, …,p.itemk-2=q.itemk-2, p.itemk-1 if has_infrequent_subset(c, Lk-1) then delete c else add c to Ck End Return Ck 3、has_infrequent_subset(c, Lk-1) 功能:判断候选集的元素 输入: 一个k-频繁项目集Lk-1 ,(k-1)-频繁项目集Lk-1 输出:c是否从候选集中删除的布尔判断 For all (k-1)-subsets of c do If Not(S∈Lk-1) THEN return TRUE; Return FALSE; 4、Rule-generate(L,minconf) 输入:频繁项目集;最小信任度 输出:强关联规则 算法: FOR each frequent itemset lk in L generules(lk,lk); 5、Genrules递归算法: Genrules(lk:frequent k-itemset, xm:frequent m-itemset) X={(m-1)-itemsets xm-1 | xm-1 in xm}; For each xm-1 in X BEGIN conf=support(lk)/support(xm-1); IF (conf≧minconf) THEN 第20页 长沙学院信息与计算科学系 数据挖掘实验指导书 BEGIN 输出规则:xm-1->(lk-xm-1),support,confidence; IF (m-1)>1) THEN genrules(lk,xm-1); END; END; 结合相关样例数据对算法进行调试,并根据相关实验结果对数据进行分析, 四、实验报告要求 1、用C语言实现上述相关算法。 2、实验操作步骤和实验结果,实验中出现的问题和解决方法。 五、注意事项 1、集合的表示及相关操作的实现; 2、项目集的数据结构描述; 第21页 百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库数据挖掘实验指导书(4)在线全文阅读。
相关推荐: