当前位置:大学毕业论文> 专科论文>材料浏览

关于聚类论文范文写作 基于GMDH模型模糊聚类特征提取相关论文写作资料

主题:聚类论文写作 时间:2024-03-04

基于GMDH模型模糊聚类特征提取,此文是一篇聚类论文范文,为你的毕业论文写作提供有价值的参考。

聚类论文参考文献:

聚类论文参考文献 聚类分析论文医药类期刊国家级教育类期刊交通类期刊

摘 要:特征提取算法可以去除目标数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高目标对象的识别率以及数据的挖掘速度.现有的特征提取方法在定性数据及噪声数据的处理上存在局限性,而定性数据及带噪声数据在现实建模过程中是不可避免的.本文从特征提取需解决的根本问题出发,就如何确定特征子集并选择适当的隶属函数来表示模糊子空间,使模糊规则归纳模型有最大的识别率及抗干扰性的方法进行讨论、研究.

关键词:特征提取;模糊聚类;隶属函数

中图分类号:O159;TP311 文献编码:A DOI:10.3969/j.issn.1003-8256.2016.06.009

1 引言

自组织模糊规则归纳(Self-Fuzzy Rule Induction Using GMDH,简称FRI)本质上是一种基于GMDH技术的规则归纳法,能自动地从数据中提取模糊规则形成自然语言描述的模糊模型用来描述复杂系统,可以用来提取目标数据中的特征规则.该方法属于非参数GMDH,其执行过程就是应用黑箱方法从数据中自动地建立模糊推理系统(输入输出映射关系的模糊规则的集合),保持了GMDH适于有噪声样本的建模优点.FRI使用黑箱方法分析处理系统输入输出变量之间的关系,运用GMDH技术将每个输入变量(定性或定量)的区间分成重叠的等距离的区间,使用型的隶属函数将原始的分明变量转换成模糊变量,通过GMDH算法,将输入空间分成模糊子空间并确定最优个数的输入变量,运用系统的输入输出数据和选择准则和,自动地提取模糊规则,形成由自然语言描述的IF-THEN模糊模型来描述系统行为,例如,文献[1]利用FRI网络提供的信息直接提取出IF-THEN形式的规则,这种方法分析美国国会选举结果的正确率达到了97%.

目前用于高维客户数据规则提取的机器学习分类算法有很多,但通过文献分析发现,Kira和Rendell提出的基于距离的Filter方法提高了计算速度,但其中的距离指标只适用于定量数据[2]; Relief系列算法是公认的分类效果较好的filter式特征提取算法[3],能够处理离散和连续的数据,但该算法不能辨别冗余特征.而Kalousis[4]和Riyaz Sikora[5]等人通过模拟实验证明了大多数特征选择方法对数据噪声比较敏感,难以保证得到最优特征.要得到较好的特征提取效果,要充分考虑样本的选择和转换,离散化和噪声干扰等问题[6].

在研究中发现,数据中大都包含无关特征,甚至噪声特征,而通常样本数据又不是很充足,那么很容易发生所谓过拟合(over-fitting)现象,导致算法分类精度能力下降、学习速度低.虽然FRI适合于在定性和定量的细分数据中提取特征,但对目标数据群使用同一个隶属函数进行模糊化,使得当细分共同特征较多时,现有的FRI方法进行特征选择的精度较差.文献[7]和文献[8]分别从特征提取的不同角度提出:在不降低精度和保证结果的特征分布和原始数据相似的条件下,应选择尽可能小的特征子集用于特征提取.

2 模糊特征提取模型的构建和检测

通过定义一种对输入空间的一般模糊划分(Fuzzy Cut)确定特征子集,并根据样本数据自动生成隶属函数的新算法——FC-GMDH.该算法取代了对所有样本数据采用同一隶属函数,且建模过程中缺乏对数据样本进行划分的FRI方法,建立了一种新的基于模糊划分的自组织模糊特征提取模型.新算法由于根据特征子集样本数据来定义隶属函数,而不是领域专家的主观经验,更能体现模糊建模的客观性.通过对模型的检验来验证新算法的有效性.

2.1 特征子集的划分策略

通常,描述目标对象需要一些特征,随着特征个数的增加,会出现维数灾难(curse of dimensionality)问题,直接导致识别率的降低.特征提取是对原始特征进行线性或非线性变化之后得到的一组特征,可以去除数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高模式的识别率以及数据的挖掘速度.特征提取时,系统的状态和目标往往都是用自然语言描述的,难以定量确定,可以说建立具有模糊、不确定性的特征子集划分对于提取特征是至关重要的[9].

现有的FRI算法忽略了特征子集的划分,对所有的数据样本采用同一个隶属函数进行模糊化处理,使得当样本共同特征较多时,特征选择的精度较差.

特征提取中首先要解决的问题就是特征子集的产生.一个最直接的想法就是枚举法,将所有可能的子集列出,然后进行评价,选择最优的一个,但该算法的计算量太大,实际运用中很难操作[10].

在构建模糊特征提取模型时,首要的任务就是将模型的输入空间划分成多个模糊特征子集,即模糊划分(fuzzy partition).1969年Ruspini[11]将数据的硬划分概念推广到模糊情形,引入数据的模糊划分,并且在阐述模糊聚类分析的文章[12]中给出了模糊划分的定义:

定义1 论域上X的一个模糊集合族叫做X的一个模糊划分P,当且仅当:

① ;

② .

当时,

令;称矩阵为模糊划分P的划分矩阵.

在论文[13]中,主要将模糊划分区分为三种划分方式:

⑴格状划分(grid partition)[14]:是将每一维度的输入空间作划分来求的模糊集合,再根据模糊系统理论,将模糊集映像成模糊区域.该方法虽然实现比较容易,但产生的模糊规则数目随输入特征数目指数增长.因此这种方法很难解决具有高维空间的特征提取.

⑵树状划分(tree partition)[15]:是一次产生一个和模糊区域相对应的一个划分.这种划分方法虽然可以避免模糊规则指数增长的问题,但却很难决定哪个特征在哪个区域,如何划分.

结论:关于本文可作为相关专业聚类论文写作研究的大学硕士与本科毕业论文聚类算法论文开题报告范文和职称论文参考文献资料。

基于模糊聚类分析的高速公路状态识别
摘 要:高速公路交通状态的识别具有一定的主观性和模糊性,本文综合考虑对交通流影响较大的三个因素(流量、速度、占有率(由于密度不好直接测取,所以用。

一种改进模糊聚类算法
摘 要:针对模糊C-均值聚类算法不能很好对非椭球形分布,或结构形状不对称分布的数据进行聚类的问题,文章提出了一种基于点密度的模糊C-均值聚类算法。

基于聚类赋权科学评价模型实证
摘要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观内涵,以权威机构典型观点的高频指标为基础,从经。

基于模糊聚类法地区卫生事业安徽省为例
摘 要:文章对地区医疗卫生事业发展情况进行模糊聚类分析评价。选取12项地区医疗卫生事业发展指标,应用模糊聚类分析法,分别计算地区间模糊相似矩阵、。

论文大全