当前位置:大学毕业论文> 本科论文>材料浏览

关于数据挖掘论文范文写作 基于网络化密度聚类船舶停泊点数据挖掘相关论文写作资料

主题:数据挖掘论文写作 时间:2024-03-29

基于网络化密度聚类船舶停泊点数据挖掘,本论文为免费优秀的关于数据挖掘论文范文资料,可用于相关论文写作参考。

数据挖掘论文参考文献:

数据挖掘论文参考文献 聚类分析论文医药类期刊国家级教育类期刊交通类期刊

【摘 要】 为获取船舶停泊行为规律,以大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等全球六大港口水域为例,基于Hive数据仓库和R语言平台,利用网格化DBSCAN算法,提取船舶在各港口水域停泊点位置、面积等信息,进而基于停泊点可视化结果,验证这六大港口实时可视化结果和基于历史数据挖掘结果相符.研究成果有助于保障港口水域船舶安全通航,亦为船舶交通管理系统智能化奠定基础,从而推动港口行业持续、健康发展.

【关键词】 船舶自動识别系统(AIS);数据挖掘技术;Hive数据仓库;网格化;空间密度聚类(DBSCAN)

0 引 言

港口作为海上交通枢纽及实现对外贸易往来的窗口,在促进地区经济发展方面起着重要作用.在世界经济全球化的今天,国际贸易量增长促进了港口行业的快速发展.在此背景下,加快港口水域船舶通航安全建设迫在眉睫,挖掘停泊点信息对于提高船舶安全通航至关重要.

借助数据挖掘技术和船舶自动识别系统(AIS),可对港口水域AIS数据进行深入数据挖掘,以获取船舶停泊行为规律.在船舶通航安全研究方面,现有研究较多考虑船舶交通流特征来分析船舶通航规律[1-2],未考虑停泊点作为港口水域运输枢纽在安全通航管理中的重要性.鉴于此,本文基于Hive数据仓库和R语言平台,结合港口水域船舶交通特征和网格化具有噪声的空间密度聚类(DBSCAN)法,对大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等全球六大港口水域的停泊点位置、面积等信息进行数据挖掘,进而基于动态船舶地图上的停泊点可视化,从停泊点面积、经纬度偏差两个方面,对比这六大港口实时可视化停泊点位置和历史数据挖掘结果比对,验证本文研究方法的有效性、合理性.

1 六大港水域船舶交通情况

船舶停泊点包括港口和锚地,其中:港口是船舶安全往来的运输枢纽,在国际贸易和运输系统中发挥着重要作用;锚地是船舶停靠泊位前的候泊场所,其大小在一定程度上影响船舶通航安全.[3] 因此,本文以全球具代表性的大连港、天津港、青岛港、德国罗斯托克港、巴西桑托斯港和荷兰格罗宁根港等六大港为例,利用AIS数据,对港口水域船舶停泊点进行数据挖掘.六大港口水域经纬度范围见表1,经纬度选取均在为提高数据利用率和算法运行效率,对六大港口水域AIS动态数据进行以下预处理:首先,从Hive数据仓库中导出2015年1月1日―5月31日数据,利用R语言平台进行数据清理,包括去除重复及异常数据;其次,基于船舶在停泊点附近具有船速趋于零的特征,筛选出船速等于零的AIS观测数据.各港口水域船舶观测量见表2,其中:天津港船舶观测量最多,累计达26 661 494艘次;桑托斯港船舶观测量最少,累计达1 952 459艘次.

2 船舶停泊点数据挖掘算法及步骤

基于网格化的划分构造了一个全新的独立数据空间,将大量原始数据点放进具有经纬度范围属性的网格单元中,从而减少聚类对象以及降低噪声.DBSCAN算法可以过滤低密度区域,发现稠密度样本区域,因此将网格划分法和DBSCAN算法相结合,提出船舶停泊点数据挖掘的思路和方法.

利用Hive数据仓库和R语言平台,建立基于网格化的DBSCAN算法,从船舶停泊行为角度数据挖掘分析船舶交通行为,分析海上船舶停泊点,具体步骤如下:

步骤1:针对清理后的AIS数据,将经纬度进行网格化操作.选定港口水域经纬度范围均为00*100个网格.

步骤2:统计每个网格内的船舶数、航行速度、船舶停泊时间等信息,其中,若一艘船舶在同一个网格内出现的天数为n,则记船舶数为n.

步骤3:设定网格单元船舶数阈值,对网格进行筛选.当网格内船舶数低于150艘时,不予保存.

步骤4:针对筛选后的网格,利用DBSCAN算法进行聚类,得到若干分类簇作为停泊点,密度聚类半径参数设定为0.02,最小目标数为3.

步骤5:基于DBSCAN结果,统计各分类的位置信息和船舶信息,并将数据挖掘结果和动态船舶地图上的停泊点参照位置(Marine Traffic网站港口标识位置)进行比对,验证研究方法的正确性和有效性.

3 实证分析

3.1 国内三大港口停泊点数据挖掘结果

基于网格化DBSCAN算法,挖掘大连港、天津港、青岛港国内三大港口水域的停泊点数据,分别挖掘出停泊点4个、5个和4个,详情见表3.

验证结果如下:

(1)大连港水域1~4号停泊点的面积分别为3.23 km2、56.70 km2、27.00 km2和54.40 km2,停泊点的船舶艘数分别为、、和,其中2号停泊点的面积和船舶艘数均为最大,1号停泊点的面积和船舶艘数均最小.通过比较停泊点的面积和停泊点的船舶艘数,认为运用DBSCAN算法所得的大连港停泊点面积大小和实际情况相符,进而将数据挖掘所得停泊点中心位置坐标和参照位置坐标进行对比,经度和纬度误差均在1 km内,这证明大连港停泊点数据挖掘结果是合理的.

(2)天津港水域1~5号停泊点的面积分别为5.10 km2、208.00 km2、21.00 km2、36.00 km2和6.00 km2,停泊点的船舶艘数分别为、、、和562;青岛港水域1~4号停泊点的面积分别为4.90 km2、117.00 km2、23.56 km2和11.20 km2,停泊点的船舶艘数分别为、、和.比较停泊点的面积和停泊点的船舶艘数,运用DBSCAN算法所得的天津港和青岛港停泊点面积大小和实际情况同样相符,进而比较中心位置坐标和参照位置坐标,经纬度误差均在可接受范围内,这证明天津港和青岛港的停泊点数据挖掘结果同样合理.

以动态船舶地图将停泊点数据挖掘结果进行可视化,进一步验证网格化DBSCAN结果的合理性.大连、天津、青岛这三大港口停泊点可视化结果见图1,从左至右分别为大连港、天津港、青岛港,其中:红色大矩形圈定本文研究水域范围内的实时动态船舶地图;红色数字代表挖掘所得停泊点的中心位置; 标志代表港口所在位置;标志代表处于在航状态的船舶,不同颜色对应不同类型船舶;菱形标志代表处于停泊状态的船舶.

结论:适合数据挖掘论文写作的大学硕士及相关本科毕业论文,相关大数据挖掘工具开题报告范文和学术职称论文参考文献下载。

基于投影寻踪聚类法对中国省域幸福感统计测评
摘 要:通过探索中国省域尺度幸福感的影响因素,以中国30个省(市、自治区)2004-2012年的数据为例,经比较分析,从经济状况、健康状况等六方。

基于模糊聚类法地区卫生事业安徽省为例
摘 要:文章对地区医疗卫生事业发展情况进行模糊聚类分析评价。选取12项地区医疗卫生事业发展指标,应用模糊聚类分析法,分别计算地区间模糊相似矩阵、。

基于聚类和主成分分析城市空气质量影响因素
摘 要:文章首先运用K均值聚类分析法对全国主要城市2016年的空气质量进行分类,将113个城市分为三类;其次,运用主成分分析对每一类城市影响空气。

基于聚类分析农村居民消费结构实证
本文依据我国2014年各地區农村居民人均消费数据,运用多元统计分析中的聚类分析的方法,对2814年我国31个地区农村居民入均消费情况进行实证分析。

论文大全