《专题讨论》实习报告
题 目:山东省外向型经济发展数据的聚类分析 院 系: 直属数理系 专业年级: 信息与计算科学2007级 学生姓名: 杨强 学号: 20072507
2011年 3月 18 日
专题讨论实习报告
山东省外向型经济发展数据的聚类分析
摘要:山东省外向型经济近几年发展迅速,但省内各地发展很不平衡。本文通过衡量外向型经济发展水平的指标体系,运用聚类分析法对山东省的外向型经济发展区域差异进行实证分析。
关键词:外向型经济,区域差异,实证分析,聚类分析。
引言
近年来,山东省外向型经济发展迅速。2004年,山东省海关进出口贸易总额为608.8亿美元,同比增长36.1%,其中外商投资企业进出口商品总值为322.3亿美元,同比增长32.3%;外商直接投资项目数为5890个,合同FDI为124.3亿美元,实际FDI为86.6亿美元,居全国第三位,仅次于广东省和江苏省;境外投资项目数127个,协议投资总额29576万美元,其中中方协议投资26831万美元;接待外国旅游人数96.2万人次,国际旅游创汇额为5.7亿美元;对外承包工程和劳务合作合同数1879个,合同金额14.7亿美元,营业额15.2亿美元,年末在外人数6.3万人。
本文通过衡量外向型经济发展水平的指标体系,运用聚类分析法对山东省的外向型经济发展区域差异进行实证分析。达到对山东省整体的外向型经济的整体把握,再通过人工干预的方式。
一、 聚类分析模型
1.相关参数的建立
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;它正是从这样的情形下总结出分类方法,用于对新对象的分类。
在聚类之前,要首先分析样品间的相似性。Q型聚类分析,常用距离来测量样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,令dij表示样品Xi与Xj的距离,存在以下的距离公式[1]。
(1)闵可夫斯基距离
dij(q)?(?Xik?Xjk)
k?1pq1q按q的取值不同又可分成: 绝对距离(q?1)
1
专题讨论实习报告
dij(1)??Xik?Xjk
k?1p欧几里得距离(q?2)
dij(2)?(?Xik?Xjk)
k?1p212切比雪夫距离(q??)
dij(?)?maxXik?Xjk
1?k?p(2)马氏距离
(?0)设Xi与Xj是来自均值向量为?,协方差为?的总体G中的p维样品,
则两个样品间的马氏距离为
2 dij(M)?(Xi?Xj)???1(Xi?Xj)
马氏距离又称为广义欧几里得距离。显然,马氏距离与上述各种距离的主要不同就是考虑了观察变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离。
(3)兰式距离
1pXik?Xjk dij(L)??
pk?1Xik?Xjk它仅适用于一切Xij?0的情况,这个距离也可以克服各个指标之量纲的影响。这事一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服闵式距离的第一个缺点,但它也没有考虑指标之间的相关性。 2.模型的建立
有了上述距离的定义我们就可以进行系统聚类了。在进行系统聚类之前,我们首先要定义类与类之间的距离,由肋间距离定义的不同产生了不同的系统聚类法。常用的肋间距离定义有8种之多,与之相应的系统聚类法也有8种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。他们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。我们简单的介绍些常用的聚类方法。
(1)最短距离法
定义类Gi与Gj之间的距离为两类最近样品的距离,即为
2
专题讨论实习报告
Dij?Xi?Gi,Xj?Gjmaxdij
设类Gp与Gq合并成一个新类记为Gr,则任一类Gk与Gr的距离为 Dkr?Xi?Gi,Xj?Gjmindij
?? ?min?mindij,mindij?
Xi?Gk,Xj?Gq?Xi?Gk,Xj?GP? ?min?Dkp,Dkq? 最短距离法进行聚类分析的步骤如下:
①定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0),开始每个样品自成一类,显然这时Dij?dij。
②找出距离最小元素,设为Dpq,则将Gp和Gq合并成为一个新类,记为
Gr,即Gr??Gp,Gq?。
③按上面的式子计算新类与其他类的距离。
④重复(2)、(3)两步,直到所有元素并成一类为止。如果某一部距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。
设有六个样品,每个只测量一个指标,分别为1,2,5,7,9,10,试用最短距离法将他们分类。
样品间采用绝对距离法得矩阵D(0),见下表:
G1 G2 G3 G1 0 1 G2 0 G3 0 2 4 G4 0 2 G5 0 1 G6 0 4 3 5 G4 G5 G6 6 8 7 9 8 5 3 表1:矩阵
D(0)
D(0)中最小元素是D12?D56?1,于是将G1和G2合并成G7,G5和G6合并成G8并利用公式计算新的距离得下表:
3
专题讨论实习报告
G7 G3 G7 0 G3 0 2 G4 0 2 G8 0 3 5 G4 G8 7 4 表2:矩阵D(1) 在上式中D34?D48?2于是将G3、G4、G8合并成一个新类G9,得下表:
G7 G9 G7 0 G9 0 3 表3:矩阵D(2) 最后将G9和G7合并为G10,这时所有的六个样品聚为一类,过程终止。 最长距离法和最短距离法大体上相似,只是在算类间距时,按照:
Dkr?Xi?Gi,Xj?Gjmaxdij
?max?maxdij,maxdij??X?G? ,X?GX?G,X?Gikjq?ikjP??max?Dkp,Dkq?
通过上式以及最短距离法的步骤就可以进行最长距离法的聚类。 对于中间距离法,重心法,类平均法,可变类平均法,可变法,离差平方和法。只是我们定义的距离之间的参数有所不同,以及合并两类时所需的准则有所不同外,基本原理都是一样的。
(2)K均值聚类分析
调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类[2]。 K均值法是麦奎因提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
①将所有的样品分成K个初始类;
②通过欧几里得距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
③重复步骤②,直到所有的样品都不能再分配为止。
K均值法和系统聚类法一样,都是以距离远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类型的确定,离不开实践经验的
4
专题讨论实习报告
积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
(3)有序样品聚类
以上系统聚类和K均值聚类中,样品的地位是彼此独立的,没有考虑到样品的次序。但在实际应用中,有时样品的次序是不能变动的,年龄的顺序是不能改变的,否则就没有实际意义了;又例如,在地质勘探中,需要通过岩心了解地层结构,此时按深度顺序取样,样品的次序也不能打乱[3]。
此时我们对其进行聚类分析就不能打乱次序的进行聚类。对于本文所要阐述的山东省外向型经济发展数据的聚类分析,不需要进行有序样品聚类。本文捎带在此不做多的说明。
二、 结论
根据系统聚类的结果我们可以得到山东省外向型经济发展水平的区域性差别,以及近几年内的经济发展走向。这样我们可一通过人工干预的手段进行宏观调控。使得经济能协调发展。以下是结论。
由聚类分析结果可以看出,如果分为两类,青岛市是一类,其余十六市是另一类。如果分为三类,青岛市是第一类,济宁市是第二类,其余十五市是第三类。如果分为四类,青岛市是第一类,烟台市和威海市是第二类,济宁市是第三类,其余十三市是第四类。总之,山东省外向型经济发展水平区域差距较大,东部地区外向型经济发展水平高,中西部地区外向型经济发展水平较低,因此山东省应采取措施努力缩小区域差距,实现外向型经济区域协调发展。
参考文献
[1] 朱建平.应用多元统计分析[M].科学出版社,2006.
[2] Richard A.Johnson&Dean W.Wichern.实用多元统计分析(第四版)[M].清华大学出版社,2000,284-342.
[3] 何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出版社,2004.
5
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库聚类分析开题报告在线全文阅读。
相关推荐: