收藏本站 | 联系我们 | 设为首页 | English
当前位置:主页>计算机论文>
一种新的聚类判别分析框架及其实证研究
来源:  作者:本站

  摘要:在分析经典聚类判别分析方法实质的基础上,提出了一种新的聚类判别分析框架,改进了一种基于样本指标值频度计算的两总体判别分析算法,提高了在对所有参与建立判别模型的样本进行判别时的计算速度;给出了建立在此改进判别分析算法基础上的一种动态聚类判别分析算法的设计,并实现了所有算法。进行相应的实证研究,结果表明以此聚类判别分析框架对给定样本集合进行分析,可以迅速得到多个合理的聚类结果以及对聚类结果的清晰解释,既可以对已有的聚类结果进行验证,又可以进行数据的探索性分析。
  关键词:聚类分析; 判别分析; 动态聚类
  0引言
  
  经典聚类分析算法是基于距离计算的。然而除马氏距离定义外,其他距离定义都存在样本指标的量纲处理问题;除马氏距离和斜交空间距离定义外,其他距离定义都存在样本指标的相关性处理问题;另外,包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点,不能反映不同指标对聚类结果的贡献程度。
  一般情况下,在确定样本间距离计算方法的基础上,用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中,许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下,用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述,即使使用同一种聚类方法,有时由于样本的排列顺序不同,也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价,现在还没有一个合适的标准。Edwards 和CAVALL Isforza (1965) 曾建议把样本分成两类,使得两类间的离差平方和最大[1]。D.Fisher Walter也指出,应该寻找使类内差异最小的聚类方法[2]。因此,评价不同聚类方法的一个重要方面,就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中,一般采用以下两种处理方法:a)根据分类问题本身的专业知识,结合实际需要来选择分类的方法,并确定分类的个数;b)用多种方法对数据进行分析处理,把结果的共性取出来。如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边,或者用其他方法如判别分析进行处理归类。另外,在聚类分析方法既定的情况下,同一组样本采用不同的指标组合进行聚类分析,通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度,在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择,这是一个比较复杂并且带有主观性的问题。实践中,在开始进行聚类分析时,通常是先选择多种指标组合分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的测度指标。
上一页12 3 4 5 下一页

关于本站 | 会员服务 | 隐私保护 | 法律声明 | 站点地图 | RSS订阅 | 友情链接
免责声明:凡本站注明来源为xx所属媒体的作品,均转载自其它媒体转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。