当前位置:大学毕业论文> 论文范文>材料浏览

关于SolrCloud论文范文写作 基于SolrCloud分布式相似性检测系统相关论文写作资料

主题:SolrCloud论文写作 时间:2024-01-30

基于SolrCloud分布式相似性检测系统,关于免费SolrCloud论文范文在这里免费下载与阅读,为您的SolrCloud相关论文写作提供资料。

SolrCloud论文参考文献:

SolrCloud论文参考文献 gocheck论文检测系统大学生论文检测系统学术不端检测系统论文检测系统

摘 要:文档相似性检测中,很多文本的资源是碎片化存储,实现全局的文本查重,在没有统一管理的情况下,不可能短时间将数据集中,数据仍旧是分散存储,为实现全局的检查,采用基于SolrCloud的分布式查重.论文在b位Minwise Hash的基础上,提出了弹性细粒度相似性检测方法;通过分析多粒度特征提取的特点,设置项目模板进行正则表达式匹配,提升了相似性检索的效率,最后通过系统实现验证该系统的有效性.

关键词:SolrCloud;相似性检测;哈希;分布式

0 引言

随着信息时代的发展,数字文档(如基金项目申报文档,论文文档,网页等)呈几何级数增长的同时,由于其本身的易复制性,导致项目重复申请,论文抄袭,网页重复等不良现象频频出现;大量相似文档的存在和数据孤岛数量不断的增加,也降低了信息检索的效率和精度.在这种情况下,研究高性能的分布式相似性检测系统显得尤为重要.

Minwise Hash[1]算法作为目前主流的海量集合相似度估计算法,经过不断改进[2],在信息检索中得到广泛应用[3].Li等人[4]提出的b位Minwise Hash在Minwise Hash算法的基础之上通过降低存储空间和计算时间进一步提高了算法的效率.同时,b位Minwise Hash也是对集合估计算法的一种理论创新,在三者相似性检测[5]、大型线性支持向量机[6]以及基于最大似然估计的估计算法[7]等领域有了新的应用发展[8].论文在b位Minwise Hash的基础上,提出了一种细粒度文档相似性快速检测方法,并将其应用到分布式相似性检测系统中,介绍它的系统框架、系统关键技术难点和解决方案以及软件实际使用效果.

1 系统的架构

1.1 基于SolrCloud的分布式系统

(1)SolrCloud是基于Solr和ZooKeeper的分布式搜索方案.该方案具有集中配置、自动容错、近实时搜索、负载均衡等特点.系统为满足全局相似性检查,基于SolrCloud提出一种分布式文档相似检测方案,较好解决跨数据源相似性检测问题.这种分布式查重方式核心算法应用了b位Minwise Hash,兼顾检测的精度和效率,结合弹性细粒度,对各类数据进行加工处理,准确匹配各章节,将文档最小原子锁定到句子级,形成海量句子指纹库;每个数据站点间的传输通道和统一的传输接口规范.

把所有的索引集合视为一个总索引库,将总索引库分为三个索引片,分别存放在三个站点,即为主索引库,并且,考虑到平台的健壮性,为每个索引片增设了一个备份,即为从索引库.各个索引库之间的联系通过ZooKeeper提供的服务协调.

(2)联盟式检测的模式.如图2所示,站点1是查重系统站点,主要进行预处理数据,计算相似度.站点2和站点3主要是作为跨部门的数据采集点,在站点1需要的时候传输历史数据至站点1,站点将获得自身数据库以外的待对比历史库,以期获得更准确的查重结果.

(3)数据的检测流程.如图3所示,包含以下两个流程.

1)本地检测:将待查库的文本发给本地引擎,对文本中每个段落进行计算相似性,检索出相似的段落.

2)远程检测:系统中站点表保存了所有站点的IP地址及端口.索引库表保存了能够访问到的远程所有索引库的信息.

在两种检测的基础上实现跨站点检测步骤:以和远程站点1的历史库1比对为例.

第一步:用户选择远程站点,系统访问站点表,获取远程站点1的IP.然后向远程站点1发送请求获取站点1可供查的索引库列表.

第二步:用户选择历史库1,系统在任务表中新建检测任务.

第三步:本地检测引擎扫描数据库,获取检测任务信息,检测完后,没有找到的句子,再将句子的指纹加密发送到远程站点1,远程站点1的引擎接收后检测.

第四步:远程站点1查完将检测结果发回本地站点,本地结合远程站点1的相似性证据一起写回待查表.

1.2 系统的网络拓扑结构

由于相似性检测系统通常都是单位内部人员使用,因此系统一般部署在内部局域网环境中.当然,对于大众用户的相似性检测需求,系统也可以对Internet开放.

本文构建系统部署的网络拓扑结构如图4所示.

2 系统的关键技术

2.1 确定检测粒度

细粒度文档相似性检测,通常是将文档切割为多个自定义长度的文本块集合,通过相关检索,计算并获取每个文本块和文本集合中的文本的相似程度.如果文本块的长度选择过大,则计算准确度不高,容易遗漏多方抄袭部分内容的情况.同时,如果文本块长度选择太小,也会造成时间和空间的开销过大.

在文档切割的过程中,通常会首先按照自然段对文档进行初步的划分,这是由于自然段可以表达作者相对完整的思想,同时也提供了对文档结构的换行.而另一方面,大部分抄袭者也都是选择以段落为单位进行抄袭的.然而,文档中通常也会存在一些很长的自然段.例如,在论文中又包括了引言、研究方法和内容、实验结果、讨论和结论等,每项内容又包括了段、句子、文本块、词等,这些特征都是多层次的.大量过长自然段和多层次特征的存在使得单单基于自然段落的划分是行不通的.

如图5所示,通过将自然段落切分为150字符左右的“句子”作为检测单元粒度.同时对于特殊的独句段,短句段等段落,这类段落通常具有很强的同义性,使用频度很高,并且通常在文章中是起起承转合的作用而和文档的核心内容无关.因此,对于这类段落不进行相似性的检测.

2.2 细粒度指纹索引的建立

实际上文档相似性检测就是文档间“句子”指纹的海明距离的范围检索.令细粒度的检测单位“句子”的指纹为100位的海明码指纹(fs,1-fs,100),将k等于100位指纹进行分组,分为m等于5组(20,20,20,20,20,20)[11].如(1)所示,则一个具有s个长句的文档D可以表示为:

文档集表示为 .

分别对向量VA,VB,VC,VD,VE建立m等于5个B+树索引.

在实际的系统应用中,可以利用数据库管理技术在指定的表中建立m等于5个字段,并对这5个字段分别建立INDEX索引.论文采用了lucene4.9的版本来建立索引,Lucene作为一种全文检索引擎架构,具有优秀的检索效率,增量插入和删除等操作非常方便.

2.3 细粒度相似性比对

步骤1:将“句子”的指纹也分组为 {Aq,Bq,Cq,Dq,Eq},从m等于5组中选出2组可以不同的总

2.4 系统相似性实施效果

为测试联盟式相似性检测的实际效果,论文在普通PC机上搭建起分布式处理平台,其中一台主机和三台机器子节点.本章采用的实验数据来至知网的的1万论文文档对,将数据分为数据集1,数据集2和数据集3,每个数据集大小不同,每个数据集都有一定的重复率.通过三个不同的数据集的实验,可以有效的评估出联盟式检测的性能.数据集详情如表1所示.数据集1,数据集2和数据集3的实验结果分别如表2,3所示.

三个数据集存在重复数据,要对数据进行相似性检测,首先要读取将要存储的文件数据,然后将文件数据进行处理,求出文件的特征指纹,将指纹和索引表进行匹配,最后计算出文档的相似度.如表2,3所示,联盟式相似性检测的结果表明,三个数据集独立的相似性检测输出文档对共为1333,三个数据集联盟相似性检测输出文档对2100,多输出了767份文档对,证明了跨数据源抄袭现象的存在.因此,在以后的查重工作中,根据实际情况有必要进行跨数据源检测,提升项目查重的整体效果.

如图6所示,系统给出的相似性证据界面,其中包括一对一直观比对显示以及一对多的细粒度抄袭证据显示.

3 结语

分组指纹的弹性细粒度检测主要解决了文档内容的分区查重问题,让结果更加智能和准确;联盟式相似性检测主要解决了不同数据源联合查重的问题,使得异源抄袭也无所遁形.本论文的工作对分布式相似性检测系统的推广起到了一定作用.

结论:适合SolrCloud论文写作的大学硕士及相关本科毕业论文,相关sklr开题报告范文和学术职称论文参考文献下载。

铝电解用多功能机组绝缘检测系统
摘要:铝电解用多功能机组因为其多项作业均需要与电解槽阳极母线等通有直流电的部位有直接接触因此其各部位的绝缘就尤为重要,绝缘监测系统可以有效的防止。

基于锁定放大器微弱信号检测系统设计
摘要:文章设计了一种基于锁定放大器的微弱信号检测系统,该系统以相敏检波器和单片机为核心,结合加法器、纯电阻分压网络、微弱信号检测电路和显示电路组。

CNG加气机计量检测系统
摘 要:随着汽车总量的不断上升,产生了大量的安全隐患,其中汽车尾气导致环境污染的问题越来越严重。天然气汽车的发展,将改善人们居住的生活环境并有效。

剩余电流保护电气火灾检测系统
摘要:剩余电流(漏电)保护是在绝缘水平下降,或者相线通过人体等与大地发生接触,剩余电流(漏电)保护切断电源,从而保证人身安全;电气火灾检测系统主。

论文大全