当前位置:大学毕业论文> 本科论文>材料浏览

关于聚类论文范文写作 基于改进特征提取聚类网络评论挖掘相关论文写作资料

主题:聚类论文写作 时间:2024-02-17

基于改进特征提取聚类网络评论挖掘,本论文为您写聚类毕业论文范文和职称论文提供相关论文参考文献,可免费下载。

聚类论文参考文献:

聚类论文参考文献 聚类分析论文医药类期刊国家级教育类期刊交通类期刊

〔摘 要〕[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题.[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤.并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进 K-means 聚类算法对产品特征进行聚类.[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为9264%,综合值达到7907%.在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能.

〔关键词〕Apriori算法;特征提取;PMI算法;K-means算法;语义相似度

DOI:10.3969/j.issn.1008-0821.2018.02.011

〔中图分类号〕TP393〔文献标识码〕A〔文章编号〕1008-0821(2018)02-0068-07

Research on Network Review Mining Based on Improved

Feature Extraction and Clustering

Li ChangbingPang Chongpeng*Ling YongliangWang Qiang

(School of Economics and Management,Chongqing University of Posts and Telecommunications,

Chongqing 400065,China)

〔Abstract〕[Purpose/Significance]Aiming at the problem that the feature extraction performance is low and the initial center point in the feature clustering is under the condition of information overload condition.[Method/Process]In this study,a new Apriori algorithm based on weight was proposed to generate candidate product feature sets,and then the candidate product feature sets were filtered according to independent support,frequent item term non-feature rules and PMI algorithm based on web search engine.Based on HowNets semantic similarity and feature view co - occurrence as a feature to measure the degree of correlation between product features,an improved K - means clustering algorithm was proposed to cluster the product characteristics.[Result/Conclusion]The experimental results showed that the precision is 69%,the recall rate was 9264%,and the comprehensive value was 7907%.In the stage of feature clustering,the improved K-means algorithm proposed in this paper had better mining performance than traditional algorithm.

〔Key words〕Apriori algorithm;feature extraction;PMI algorithm;K-means algorithm;semantic similarity

隨着互联网的迅速发展,评论挖掘作为一种从数据中探索有用信息为目标的技术逐渐被研究者所关注.在许多电商领域,用户在做出购买决策之前都会浏览产品的评论信息以此决定是否购买该产品.然而,在信息过载条件下,通常的分类目录和搜索引擎需要用户能准确描述自己的需求,而当用户无法准确描述自己的需求时,前述方法就无能为力了.这时就需要借助以数据挖掘技术为基础的推荐系统,从海量的网络产品评论信息中获取自己需要的信息、产品或服务.

产品特征提取是在海量的网络产品评论信息中提取出用户真正关心的产品特征.在这些产品特征里,往往会发现同一种特征在评论句子中可以有不同的短语或词来描述,如评价手机的“功能”和“机能”实际上表示的是同一个产品特征.因此,对提取出的产品特征信息进行相应聚类也是非常有意义的.现如今,许多国内外研究者在这些方面都取得了不错的成果.在特征提取方面,Zhuang L等[1]采用人工或半自动的方式对电影中文评论领域进行产品特征提取研究.Kobayash N等[2]提出利用产品、产品特征和观点词之间的共现模式的半自动化方法提取产品特征和观点词.娄德成等[3]利用半自动方式进行人工定义,从而抽取出产品评论信息.Hu M等[4]抽取出现频率大的名词及名词短语作为候选产品特征,通过压缩剪枝和冗余剪枝策略对提取的频繁商品特征进行筛选,再使用关联规则挖掘识别频繁产品特征.此方法使得各性能指标有了较大提升.Popescu A M等[5]将产品特征看作是产品的一部分,使用候选产品特征和领域特征之间的共现来提取商品特征,并使用点互信息PMI(Pointwise Mutual Information)表示关联程度,最终按关联程度大小选择商品特征.该方法提高了产品特征提取的准确率,但召回率有所下降.在特征聚类方面,Guo H等人提出了一种两层监督算法mLSA,根据多层次潜在语义关联技术实现对产品特征的聚类[6].Zhai和Liu在EM算法的基础上提出了一种约束的半监督的SC-EM学习方法归纳特征,主要采用两条约束信息,选择文本上下文信息作为特征,并对其中一条约束信息进行人工标注,进行分类器分类,通过实验验证此方法具有明显的可行性[7].杨源等提出一种权重标准化方法,然后结合Zhai提出的SC-EM方法,来计算被提取的产品特征之间的相似度,大大提高了聚类效果[8].张姝等人第一次把经典K-means算法应用于对产品特征进行聚类[9].Guo H等人提出了一种PLSA方法,利用产品特征词和观点词往往同时出现的信息,对产品特征进行聚类,并取得比较好的聚类效果[6].对于传统的K-means算法来说,对初始类中心点的选择并不理想,导致聚类效果不佳.

结论:关于本文可作为相关专业聚类论文写作研究的大学硕士与本科毕业论文聚类算法论文开题报告范文和职称论文参考文献资料。

基于人工神经网络的聚类算法
摘要:研究连续型Hopfield神经网络的电路机理,推导出网络的权值计算公式,并运用连续型的神经网络模型构造出聚类算法;对20个随机生成数据计算。

基于服装网民用户网络行为方式聚类分析
[摘 要]聚类分析是服装网络调查研究问卷分析的重要组成部分,主要是运用 SPSS 17 0对服装网民用户网络购买心理和支付行为方式量表进行分析,。

一种改进模糊聚类算法
摘 要:针对模糊C-均值聚类算法不能很好对非椭球形分布,或结构形状不对称分布的数据进行聚类的问题,文章提出了一种基于点密度的模糊C-均值聚类算法。

基于聚类分析农村居民消费结构实证
本文依据我国2014年各地區农村居民人均消费数据,运用多元统计分析中的聚类分析的方法,对2814年我国31个地区农村居民入均消费情况进行实证分析。

论文大全