当前位置:大学毕业论文> 专科论文>材料浏览

关于关系数据库论文范文写作 一种针对关系数据库记录的相似重复记录检测算法相关论文写作资料

主题:关系数据库论文写作 时间:2024-01-03

一种针对关系数据库记录的相似重复记录检测算法,该文是关于关系数据库论文范文,为你的论文写作提供相关论文资料参考。

关系数据库论文参考文献:

关系数据库论文参考文献 学术期刊数据库中美关系论文题目论文指导记录中国和世界的关系论文

摘 要:在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量.邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费.在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测.实验表明新的算法的效率比SNM算法有一定提高.

关键词:相似重复记录;snm算法;检测

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2018)13-0025-04

1引言

隨着移动互联网、物联网的迅速发展,大数据时代正在不同程度影响着我们的生活.企业收集、处理的数据越来越多,各类应用数据库中存在着大量的脏数据,这些数据可能与业务无关或错误格式或不规范描述甚至相似重复的数据.这些不正确的记录,影响企业数据统计分析利用的效率与准确性,甚至可能对企业的决策过程起到错误的帮助.这些相似重复记录是不正确的,相似重复记录严重损害了数据的一致性,造成了一定程度上的数据冗余,产生了资源的浪费,对数据的准确性产生了影响.如何处理这些脏数据是我们面临的挑战.

要处理这些相似重复记录,可以通过常用算法,如聚类算法,N-Grams算法[1],字段匹配算法等识别出相似重复记录,随后通过人工或代码进行清除处理;也可以通过基于排序和合并的算法对数据库相似重复记录进行识别,并找出的重复记录进行删除或合并操作.基于排序和合并的常用算法有邻近排序算法(SNM算法),多趟近邻排序算法(MPN算法)等[2-7].

针对邻近排序算法,张建中[8]提出来对滑动窗口的大小采取动态变化和窗口的移动速度进行动态变化,使得改进后SNM算法比传统SNM算法的效率得到了提升;余肖生[9]提出了对记录进行字符串单词化处理,较好地弥补了传统算法的缺陷,得到了比传统SNM算法更好的效果;李军[10]提出了对数据进行预处理,使记录格式更加规范,采用预处理后算法性能得到提升.殷秀叶[11]针对记录的属性,提出了同级属性的概念,利用同级属性进行检测大大缩短了检测时间,提高了检测的效率.郭文龙[12]针对客户关系数据库提出了一种清洗算法,获得了较好的效果.刘雅思[13]提出来基于长度过滤和动态容错的SNM改进算法,使得准确率和时间效率获得了显著提升.宋兴国[14]利用R-树检索提出了DRR算法,获得了更高的准确率和时间效率.杨巧巧[15]提出来基于聚类分组和属性综合权值的SNM改进算法,获得了查全率和查准率的提升.

从上述文献的论述中,我们可以看出存在这样一个问题,关系数据库记录量往往不是一成不变的,随时间变化而变化.在添加了新记录后,使用SNM算法对所有记录进行排序比对时,不仅要对新记录和旧记录进行比对,还有在旧记录之间相互比对,这些旧记录的相互比对往往是过去已经做过的,这样就造成了一定的计算浪费.在此基础上,本文在SNM算法基础上提出了一种改进算法,一种针对关系数据库记录的相似重复记录检测算法即ISNM算法(improved sorted-neighborhood method).SNM算法是通过对记录按照一定要求方法进行排序,从而进行附近比较,而改进ISNM算法在SNM算法基础上添加了一定的记忆功能,对记录进行分类存储,通过调取在同一分类的记录进行比对而不是原本的附近比对,使得改进算法不用对已经处理过的记录进行重复比对.

2 算法描述

2.1相关定义

我们提出的ISNM算法,是基于SNM算法,在SNM算法中添加记忆信息,以减少比对次数,称为记忆邻近排序算法.算法具体处理过程是先将记录按照属性创建属性关系表,把记录按照每个属性的属性值进行分类,查找具有相同属性值的其他记录进行相似度检测,从而找出相似重复记录.为了描述方便,我们给出如下定义:

定义1 设数据库记录一共有n个属性.每个属性都有一定的判读可能性即权重

2.2构建亲属记录

考虑到记录可能没有唯一标识的主键,或者姓名作为主键时可能这些主键有错误内容.根据数据库记录,创建唯一表示记录的属性编号,编号属性权重为0.可以通过编号找到该记录,也方便存储.按照记录创建属性关系表,把所有属性分成不同的属性库,每个属性库记录该属性所有的属性值表,每个属性值表里存放着具有该属性值的所有记录的编号.如果手动输入,大量记录的工作量十分巨大,考虑代码输入记录.首先创建属性库,这些属性库创建后都是空库.按照编号从小到大的顺序依次读取数据库记录,对属性库进行访问,查询该记录的属性值对应的属性库的属性值表.如果存在该属性值表,就在该属性值表加入该记录;如果不存在,就在属性库中添加该属性值表,并在属性值表里存入该记录编号.读取完记录后,属性库和属性值表填充完毕.

2.3 ISNM算法

改进算法简单地说就是对于新纪录和所有旧记录的比对,如果一一比对,计算量是非常大的.而两个记录在某属性是非亲属记录,其相对于的相对相似度为0,那么只要找出相对相似度不为0的相对相似度求其和就是两个记录的相似度.相对相似度不为0只有亲属记录,可以通过属性关系表,找到这些亲属记录,利用亲属记录求记录的相似度.亲属记录相对所有记录来说是非常少的,利用亲属记录可以大量减少计算量.

步骤如下:

Input(R,W,U)

For(a等于 0;a

For(b等于0;b

SimR(Ra,Rb)等于0;//初始化所有相似度

结论:关于本文可作为关系数据库方面的大学硕士与本科毕业论文关系数据库论文开题报告范文和职称论文论文写作参考文献下载。

总体国家安全观五种辩证关系刍议
【摘 要】 文章阐释了坚持总体国家安全观的五种辩证关系:既重视外部安全,又重视内部安全;既重视国土安全,又重视国民安全;既重视传统安全,又重视非。

作为一种交流关系传播
【摘要】传播的本质是关系,如何实现良好的传播效果,构建民主共同体中大众媒体,首先要正确认识“交流“。作为一个社会心理的过程的“交流“,通过媒介达。

得来是一种浅关系
摘自《中国青年报》谈得来到底有多重要?很重要很重要。它往往决定了一段关系的开始。两个陌生人之间的一场相遇,谈天说地,指东画西,如果能够相谈甚。

探究职申报工作中几种关系正确处理
摘 要:随着职称制度改革进程的深化以及相关职称政策的变化,职称申报工作成为专业人员及技术人才关注的热点话题。职称申报不仅关系到专业技术人员的自身。

论文大全