关于通用提取算法论文范文写作面向BBS的通用提取算法的分析和设计相关论文写作资料

面向BBS的通用提取算法的分析和设计,本论文主要论述了通用提取算法论文范文相关的参考文献,对您的论文写作有参考作用。

通用提取算法论文参考文献：

摘要：BBS型网站作为整个互联网生态中的重要一环,其中蕴含着海量的数据,也是我们获取信息的重要来源.如何针对这些不同类型的论坛网页,设计一种通用的算法,对其主题贴和回帖等有价值的信息进行提取,是文章所研究的主要内容.文章在基于对不同类型网页结构的深入分析,并充分考虑了论坛网页类型的不一致性、单个网站的易爬取性及通用爬虫的不可靠性,设计了一种基于网页纵向分析的提取方案,并详细叙述了主题爬虫的算法方案.

关键词：BBS；噪音处理；聚类分析；符号匹配

中图分类号：F724.6 文献标志码：A 文章编号：2095-2945（2018）09-0132-02

Abstract： As an important part of the whole Internet ecology, BBS-type website contains a huge amount of data, and it is also an important source of information. How to design a general algorithm for these different types of forum pages to extract valuable information such as theme posts and reply posts is the main concern of this paper. In this paper, based on the in-depth analysis of different types of web pages, the inconsistency of web page types, the accessibility of individual web sites and the unreliability of common crawlers are fully considered. An extraction scheme based on longitudinal analysis of web pages is designed, and the algorithm of topic crawler is described in detail.

Keywords： BBS； noise processing； cluster analysis； symbol matching

引言[1]

在当今的大数据时代里,伴随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番.互联网产生的海量数据中蕴含着大量的信息,已成为政府和企业的一个重要数据来源,互联网数据处理也已成为一个有重大需求的热门行业.借助网络爬虫技术,我们能够快速从互联网中获取海量的公开网页数据,对这些数据进行分析和挖掘,从中提取出有价值的信息,能帮助并指导我们进行商业决策、舆论分析、社会调查、政策制定等工作.而大部分网页数据是以半结构化的数据格式呈现的,我们需要的信息在页面上往往淹没在大量的广告、图标、链接等“噪音”元素中.如何从网页中有效提取所需要的信息,一直是互联网数据处理行业关注的重点问题之一.

但是,不同网站甚至网页所使用的网页格式、网页结构和标签体系可能是不一样的,对于从互联网中获取的海量网页的批量处理,如果还利用传统的方法去对每个有差异的网页逐一做人工分析,是不可行的.因此,如何从这些存在差异的网页中快速有效的提取所需信息,就成为互联网数据处理中一个急需解决的问题.尽管在传统的网页结构化数据提取智能分析实践中,已经有很多开源的智能提取算法来分析新闻、文章类数据,然而这些方法只适用于提取有大段文本的页面结构数据信息,如只包含网页作者、标题、正文内容及发布时间等内容的网页.而对于BBS论坛型网页,由于文本在网页上相对分散且要提取的字段较多,传统的算法不再适用,需要重新设计通用提取算法,针对帖子内容进行有效地分析提取.

基于上述背景,本文提出一种新的算法,并详细描述了该算法的具体实现过程和原理

1 整体思路分析

通过对论坛网页结构的深入分析,发现不同类型的论坛网页具有一定的共性,比如所有网页都有发回帖时间,且所有网页的有效信息均散落在噪声中.如果能先对噪声做预处理,把主题帖和回帖从页面结构中抽离出来,然后再对帖子内部的噪声做处理,最后得到的文本信息即是需要提取的信息.

2 算法过程

2.1 外部噪声处理

通过对网页结构的深入分析,可以发现在需要提取的有效信息周围,有很多的噪声.由于本题对图片音频视频不作考虑,因此,本文只讨论对文本噪声的处理[2].对文本噪声的具体处理步骤为：

首先,噪声分类.按照网页自上而下的分布规律,将这些文本噪声大分为以下几类：（1）导航條列表类噪声；（2）广告类噪声；（3）侧边栏列表类噪声；（4）帖子内部无用文本类噪声；（5）底部栏文本类噪声.

其次,噪声处理[3].在分析了所有样本论坛的页面结构后,可发现几乎所有的主题贴都有发帖时间,所有的回帖都有回帖时间.而上面所提到的5类噪声中除了第4类帖子内部无用文本噪声包含着时间格式,其他类别的噪声大多都不含时间格式文本.因此,利用正则时间匹配方式,就可以匹配掉除帖子内部噪声之外的大多数噪声.除此之外,有的论坛在底部栏也会有网站系统时间,为了防止此类噪声的干扰,可提前去掉此类标签.由此即可从图2所示的整个网页盒子中分离出主题帖及回帖的盒子.

至此,主题帖盒子和回帖盒子还是紧密相连的,为了达到最终提取网页有效信息的目的,还需将这两个盒子分开.因此,本文拟采用下一步中利用id聚类分析的方法来对主题帖和回帖进行分离.

结论：适合不知如何写通用提取算法方面的相关专业大学硕士和本科毕业论文以及关于通用提取算法论文开题报告范文和相关职称论文写作参考文献资料下载。

面向工程、凸显双创的本科毕业设计教学改革
摘要：面对大众创业万众创新的时代背景，地方高校在本科毕业设计中创新创业能力培养方面明显不足。论文详细分析了传统教学过程中毕业设计质量下降的原因。

面向多目标优化一种混合进化算法
摘要：针对多目标优化问题，设计一种基于量子计算和非支配排序遗传算法相结合的智能算法进行求解，综合量子算法和非支配排序遗传算法的优点，在局部搜索和。

面向高维数据随机森林算法优化
作者简介：罗超，2003年毕业于湘潭大学测控技术与仪器专业；2013年至2016年，就读于人民大学统计学院；现任职于霍尼韦尔航空航天部门，专注于。

面向经济全球化国际市场营销策略
摘要：经济全球化条件下，国际市场及经济环境都发生了根本性变化，国家和地区之间的联系日渐密切，传统市场营销策略已经无法适应新时期市场经济发展趋势，。

关于通用提取算法论文范文写作 面向BBS的通用提取算法的分析和设计相关论文写作资料

关于通用提取算法论文范文写作面向BBS的通用提取算法的分析和设计相关论文写作资料