当前位置:大学毕业论文> 专科论文>材料浏览

关于增益论文范文写作 基于信息增益的文本特征选择方法相关论文写作资料

主题:增益论文写作 时间:2024-04-07

基于信息增益的文本特征选择方法,关于免费增益论文范文在这里免费下载与阅读,为您的增益相关论文写作提供资料。

增益论文参考文献:

增益论文参考文献 国家级期刊的查询方法电子信息工程毕业论文选择的力量论文移动信息期刊

摘 要:在类和特征分布不均时,传统信息增益算法的分类性能急剧下降.针对此问题,提出一种改进的基于信息增益的文本特征选择方法.首先,降低了低频词对特征选择的影响.其次,使用离散度分析特征词在类间的文档频率,增加波动性大的特征词的权值.通过对比实验分析表明,选取的特征具有更好的分类性能,并且对于不平衡数据集表现也较好.

关键词:文本分类;信息增益;特征选择;不平衡数据集;离散度分析

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)25-0242-03

Abstract: Due to the highly skewed distributions of classes and features, the classification accuracy of algorithms Based on traditional information gain algorithm will decline sharply. This paper proposes a new feature selection method to improve the performance of traditional information gain method. Firstly, the proposed new feature selection method can decrease the interference of low frequency Words to feature selection. Secondly, it analyses the variances of inter-class document frequencies of feature Word that he large variances of inter-class document frequency. Because the feature Word he large variances is more representative than other features when the distributions of classed and features are highly skewed. The comparison experiment on some real data sets shows that the proposed method is more effective and has better classification performance in imbalanced data set as compared with the traditional information gain method.

Key words:Text Classification; Information Gain; Feature Selection; Imbalanced Data Set; Dispersion Analyse

文本分類是文本挖掘的一个重要部分,其内容是按照预定义的类别将待分类文本进行归类.在这个过程中,特征选择和特征提取是文本分类的首要任务和关键问题,其中文本向量化是基础.文本向量化的过程中,特征词的权重用来衡量该特征对描述文本内容的重要程度.特征词的权重计算的准确度成为影响文本分类的重要因素.

因为文本数据的半结构化特点,使得文本表示的特征向量高达几万甚至几十万维.即使经过简单的预处理,如去除停用词、稀有词、高频词,依旧会有很多高维数的特征向量留下.然而向量空间的高维性和文档向量的稀疏性不仅增加了分类的时间复杂度和空间复杂度,还影响分类精度.因此在文本分类中,特征选择就显得尤为重要.

特征选择主要用于排除特征空间中那些被认为关联性不大的特征,通过降低特征空间的维度以及去除噪音特征来提高分类效率和精度.目前常见的特征选择方法有TFIDF、互信息(MI)、信息增益(IG)、卡方统计(CHI)等.其中信息增益是一种有效的特征选择方法.在文献[1]中作者提出了IG是最好的测度;在文献[2]中作者比较了文档评论,信息增益、互信息、卡方、特征权等5种特征选择方法,其证明了卡方效果最好,文档频率,信息增益及卡方之间存在着一定的相关性;在文献[3]中作者提出了三种基于特征信息增益权重的分类算法,通过添加权重系数来平衡特征项对分类的影响,但是由于权重系数的设置是根据人为的经验设定,所以存在很大的偶然性.在文献[4]中作者针对传统IG 算法过分看重高频特征项的缺点,提出一种强调中低频特征项的改进的算法,此算法在一定程度上提高了特征选择的效率,但算法中没有考虑到特征项在不同类别的分布差异对分类能力的影响.在文献[5]中作者在以上改进算法的基础上,通过按类进行特征选择,利用特征频率计算信息增益,再利用离散型分析去除相对冗余特征.实验表明该方法能有效的提取特征子集,此算法在一定程度上提高了特征选择的效率,但算法没有考虑到特征项在类内位置上分布对算法的影响.信息增益算法在平衡语料的情况下,表现良好,但在处理不平衡语料时其性能急剧下降.本文针对以上不足,充分考虑了特征项在类间的频数对分类能力的影响,提出了一种基于信息增益的词频改进的特征选择方法,实验表明该方法比传统的方法有更好的效果.

1 信息增益简介

1.1 熵和信息熵

熵是信息论中一个非常重要的概念,表示一种能量在空间中分布的均匀程度,其能力分布越均匀,熵就越大.1948年,信息论创始人香农将熵应用于信息处理中,并提出了“信息熵”的概念.

1.2 信息增益的不足

通过上面的公式发现,传统的信息增益方法是从整个训练集角度根据特征项的文档频数考察了特征项对整个系统的贡献程度.在不同类中分布相同或相近的特征项信息增益最小,说明该方法适合用来做全局的特征选择.但该方法过多地关注了文档频数,对词频的贡献没有给予足够的重视.其次,由于考虑了特征项不出现的情况,当每个类别中文档数差别明显时,即类别分布不平衡或特征项分布不均衡时,会使得在一个类别中出现次数不多而在其他类别中频繁出现的特征项被选取出来,而不倾向于选取在一个类别中出现较多而在其他类别中出现较少的更具代表性的特征项.

结论:适合不知如何写增益方面的相关专业大学硕士和本科毕业论文以及关于增益论文开题报告范文和相关职称论文写作参考文献资料下载。

一种基于协同信息团队伙伴选择方法
摘要:针对基于协同信息的团队伙伴选择问题,提出了一种决策分析方法。首先。给出了伙伴间的协同关系及基于协同信息的团队伙伴选择问题的描述;然后,构建。

区间型符号数据特征选择方法
摘要:对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。针对区间型符号数据的特征选择问题,本文提出了一种新的特征选择方法。首。

考虑关联性特征匹配城市生命线风险应对方案选择方法
摘要:针对城市生命线风险应对方案选择问题涉及的特征指标关联性和信息形式多样性,本文提出了一种考虑关联性特征匹配的混合型决策方法。首先,给出实际域。

会计信息质量和计量属性选择
会计信息 质量 会计计量属性 计量模式现代经济发展发展得益于资本市场的进步与发展。巨量资本通过资本市场聚集而成,庞杂的经营范围和巨大的经营规模。

论文大全