实验8-1 数据分析
一、实验目的
1. 理解数据挖掘的一般流程。 2. 掌握数据探索和预处理的方法。
3. 使用PHSTAT软件,结合Excel对给定的数据进行手工预处理。 4. 使用WEKA软件,对给定的数据进行预处理。
二、实验内容
在D盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。
0. 数据集介绍
银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id(编号), age(年龄), sex(性别), region(地区), income(收入),married(婚否), children(子女数), car(是否有私家车), save_act(是否有定期存款), current_act(是否有活期账户), mortgage(是否有资产抵押), pep(目标变量,是否买个人理财计划Personal Equity Plan)。
1.数据探索之数据质量分析
新建“1-数据质量分析.xlsx”文件,导入“0-bank_data.xlsx”文件数据,请你用EXCEL对其进行数据质量分析。
【要求】
1
(1)请找出bank_data.xlsx表中的含有缺失值的记录。
(2)请你用PHSTAT软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的异常值记录。
【提示】
(1)请找出bank_data.xlsx表中的含有缺失值的记录。 方法1:条件格式法 1)选取A1:L601区域。
2)开始 --> 条件格式 --> 新建规则(N)...,在\新建格式规则\对话框中,选择空值。如图8-1所示。
图8-1 “新建格式规则”对话框
3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图8-2所示。
2
图8-2 设置条件格式
方法2:
1)缺失值定位。“开始”?“编辑 / 查找和选择”?“定位”对话框 ?“定位条件”按钮。
2)“定位条件”对话框 ? 选择“空值”,如图8-3所示。
图8-3 “转到(G)…”下拉菜单命令 和“定位条件”对话框
(2)绘制“income”属性箱线图和点比例图。高级筛选出异常值。 “加载项 / PHStat”? “Descriptive Statistics”?“Boxplot…”或”Dot Scale Diagram…“命令。如图8-4所示。注意选中“income”属性,如果数据
3
区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选First cell contains label选项。
(a) (b)
(c) (d)
图8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制
计算income属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限和上限。
表8-1 四分位数表
箱线图 最小值 公式 =MIN(E2:E601) 数值 5014.21 4
或=QUARTILE.INC(E2:E601,0) 最大值 =MAX(E2:E601) 或=QUARTILE.INC(E2:E601,4) 第一分位数 第二分位数 (中位数) 第三分位数 =QUARTILE.INC($E$2:$E$601,1) 17264.5 =MEDIAN($E$2:$E$601) 或=QUARTILE.INC(E2:E601,2) =QUARTILE.INC(E2:E601,3) 36172.675 -11097.763 64534.9375 24925.3 78843.21 Whisker上限 =QL-1.5*(Qu-QL) Whisker下限 =Qu+1.5*(Qu-QL) 高级筛选,筛选出大于Qu,小于QL的离群点。 1)设置条件区域,如图8-5所示。
income <-11097.7625 >64534.9375 图8-5 高级筛选“条件区域”
2)设置高级筛选。
2.数据探索之数据特征分析
建立“2-数据特征分析.xlsx”文件,导入“0-bank_data.xlsx”文件,请你用EXCEL对其进行数据特征分析。 【要求】
(1)针对age属性进行分布分析。填写8-2和8-3表。
5
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库实验8-1 数据分析在线全文阅读。
相关推荐: