关于聚类算法论文范文写作大数据集合中冗余特征排除聚类算法设计相关论文写作资料

大数据集合中冗余特征排除聚类算法设计,本论文为您写聚类算法毕业论文范文和职称论文提供相关论文参考文献，可免费下载。

聚类算法论文参考文献：

摘要：传统microRNA聚类算法对数据的新特征要求较高,未全面分析大数据集内的冗余特征,使得聚类结果均衡性差.因此,提出大数据集合中冗余特征排除的聚类算法,其采用聚类集成算法,在组构造时期通过使用一致的聚类算法抽取各种子集样本,实现大数据冗余特征的排除,获取排除冗余特征的大数据集聚类结果.对得到的大数据聚类特征分类能力以及特征关联性实施度量,采用基于特征聚类以及随机子空间的miRNA识别算法,实现大数据集合冗余特征的聚类.实验结果表明,所提算法具有较高的冗余数据排除性能,该算法下的大数据聚类效果优,具有较高的均衡性.

关键词：大数据集；冗余特征排除；聚类算法；特征关联性；随机子空间； miRNA识别算法

中图分类号： TN911?34； TP311 文献标识码： A 文章编号： 1004?373X（2018）14?0048?03

Design of clustering algorithm for redundancy feature removal in big data sets

HOU Lisha1,2

（1. Tianjin University, Tianjin 300072, China； 2. Beijing Professional Business Institute, Beijing 102488, China）

Abstract： The traditional microRNA clustering algorithm has relatively high requirements for new features of data, and the redundancy feature in big data sets are not fully analyzed, resulting in poor equilibrium of clustering results. Therefore, a clustering algorithm for redundancy feature removal in big data sets is proposed, in which the integrated clustering algorithm is adopted, and samples of various subsets are extracted by using the consistent clustering algorithm during the group construction period, so as to realize the redundancy feature removal of big data, and obtain the clustering results of big data for redundancy feature removal. The classification capability and correlation of the obtained big data clustering features are measured. The miRNA recognition algorithm based on feature clustering and stochastic subspace is adopted to realize clustering of big data sets and redundancy features. The experimental results show that the proposed algorithm has high redundancy data removal performance, and the big data clustering effect under the algorithm is superior with high equilibrium.

Keywords： big data set； redundancy feature removal； clustering algorithm； feature correlation； stochastic subspace；

miRNA recognition algorithm0 引言

隨着社会经济的飞速发展,带动信息技术和数据存储技术的迅猛发展,促使数据量规模也逐渐增大,大量的高维度数据在金融领域、生物医药领域以及数据传感领域应用较广,高维度和海量的数据中可能存在大量的冗余信息,在实际应用中需要对冗余数据进行剔除,对大数据集合中冗余数据特征的聚类算法设计是提高海量高维度数据利用率的有效手段[1].传统microRNA聚类算法,对数据的新特征要求较高,未全面分析大数据集内的冗余特征,使得聚类结果均衡性差.本文设计大数据集合中冗余特征排除的聚类算法,提高算法的聚类效果,增强大数据聚类的均衡性.

1 大数据集合中冗余特征排除的聚类算法

1.1 聚类集成算法

通过聚类集成手段来构成组特征进而完成组构造.若历史数据集是[D],其中含有[n]个训练标本,[D等于X,Y等于xi,yini等于1],第[i]个分子是[d]维向量在此数据集内.

本文选取的聚类集成方法,以聚类分析为基准包含多种优势,具有良好的平均性,广泛使用的办法如下：

1）在数据集合聚类算法完全一致的情况下,可以通过对算法参数的特殊设定进而生成多种聚类结果[2]；

2）当数据集一致时可通过其他聚类算法进行计算,获取多种聚类结果；

3）在初始数据集中获取多种子集,通过一致的聚类算法针对子集实施聚类进而得到各种聚类结果；

结论：适合聚类算法论文写作的大学硕士及相关本科毕业论文，相关聚类分析的应用案例开题报告范文和学术职称论文参考文献下载。

大数据时展特征
摘要：本文对大数据的六个性质进行深入解读并整理汇总了现阶段各学科对大数据的研究情况。分析了数据信息价值在未来对企业成本和生产资料的影响，通过企业。

大数据下的云会计特征与应用
摘要：随着信息科技的快速发展，人们每天接收和制造的数据量和数据价值均非常大，预示着大数据时代的来临，在大数据的推动下，人们的思维模式和发展模式。

大数据在互联网金融领域应用
摘要：作为互联网金融的核心内容，数据非常关键，采用大数据技术更是支撑互联网金融发展的重要力量。本文分析了大数据技术在互联网金融领域中进行应用的。

大数据背景下企业财务管理面临问题解决措施
摘要：随着互联网技术等飞速发展，大数据时代到来，为不同行业领域企业财务管理提供了全新的发展机遇。但在大数据背景下，企业财务管理也面临着新问题与。

关于聚类算法论文范文写作 大数据集合中冗余特征排除聚类算法设计相关论文写作资料

关于聚类算法论文范文写作大数据集合中冗余特征排除聚类算法设计相关论文写作资料