您的位置: 主页 > 网站首页 > 数据集成

3.2对任务和方法选择的支持

3.3对kdd处理过程的支持

作者:杨书利 单位:沧州市公路工程监理中心

3.1系统支持以下的数据挖掘任务

通过一个基于窗口的图形用户界面,用户使用挖掘向导选择各种不同的挖掘任务,或者与挖掘结果进行交互,在其它的维及层次上进行挖掘。根据用户的输入,系统产生一个挖掘查询供用户检查。图形用户界面利用java语言图形用户界面的设计,以及java语言与sqlsever数据库的连接完成。

(3)分类:该功能对一组训练数据(即一组已经确定分类的对象)进行分析,根据数据的特性,对每一个分类构造一个模型,再根据测试数据对模型进行调整。用决策树或决策表来表示模型,并利用模型对其他数据分类,以便更好的理解数据库中的数据。

4系统的运行和维护

隧道工程管理系统的总体结构从sqlserverolap的数据立方体中取数据,立方体中的数据来自一个或多个关系表、数据仓库或其他形式的数据(如电子表格)。根据不同的数据挖掘任务和不同的用户需求,系统可用多种形式表示获得的知识。数据汇总(datasummarization)和特征化、概化规则、条形图、饼图、曲线以及其他的图形化工具表示。关联用关联规则表、关联计划和关联规则图表示。分类用可视化的决策树和决策表表示。簇用地图来表示(对于二维表分析而言),每个簇用不同的颜色,并用不同的颜色标识出它们的轮廓。该系统提供了观察概念层次和数据立方体内容的工具。概念层次用类似于目录/子目录结构的树来表示。数据立方体的内容用三维立方体的形式表示,立方体的每个方体的大小和颜色表示在一个三维间隔中所选的度量值的汇总数据。二维表可被看作二维的盒图,每个盒图表示相应间隔的数据离差视图(包含中值、第一个四分点、第三个四分点、须状点和孤立点)。系统的一个重要特征是具有对输出的知识进行钻取、切块以及其他转换等操作的灵活性。例如,在对一个多维和多层次的组合进行关联规则的挖掘后,可以对任一维进行钻取,以便在新的数据集中得出关联规则。

数据仓库模型都是以多维数据模型为基础的。多维数据模型普遍采用一种非常重要的模式就是星型模式。在实际应用中,随着事实表和维表的增加及变化,星型模式会有五种建模方式:简单星型模式、星系模式、星座模式、二级维表和雪花模式。星型模型包括事实表和维表。事实度量是星型模型结构的核心,由外键和用户需要了解的度量值组成;事实度量值是最终用户在数据仓库应用中所需要查询和分析的细节或聚集数据。维表保存用户查询使用的一个或多个层次关系、成员的类别属性等原数据信息,是相对静态的数据,通过它可以分析数据;每个维表通过一个主键连接到事实表中相对应的一个外键上。根据隧道管理系统具体情况:由工程量和工程材料两个事实表组成,且这2个事实表连接的维不完全相同,但又共享部分维表。管理系统的多维数据模型设计采用星系模式。事实上星系模式数据仓库中包含:

(4)聚类:该功能将一组选定的数据对象,分成若干簇,使得簇内的数据相似度高,而不同簇中的数据相似度低。高维聚类也可以在多维数据库中完成。

②不够高效的查询性能。系统运行需要建立olap工具、设计报表类型、开发报表模板,同时还要有一些支持活动,如软硬件和网络拓展、it部门和用户的培训等。随着配置信息需求的变化、技术的变化、系统规模的变化,要使系统正常地运行,就要对系统不断地进行更新维护。

1数据仓库多维分析模型的设计

①不一致的数据;

③供应商维表、地址维表、时间维表、合同维表、用户维表、工程类别表等6个维表。其中,材料入库和出库事实表共享地址维表和时间维表;材料出库和施工事实表共享用户维表;施工事实表、工程款事实表和上报事实表共享工程类别维表。材料入库、出库事实表、施工事实表、工程款事实表和上报事实表共享时间维表。时间维表中包含年、季、月、日信息;地址维表包含国家、省、城市、街道、邮编信息;合同维表包含地址、供应商名称、合同名称、电话信息;供应商维表包含地址、用户名称、所在单位、电话信息;用户维表包含地址、用户名称、所在单位、电话信息;工程类别维表包含工程名称、单位、工程部位信息。材料入库和出库事实表存放着与数量有关的材料数量、金额等信息;与工程量有关的数量信息存放在施工事实表、工程款事实表和上报事实表中。

由于该系统是与数据仓库一起工作的,若有必要的话,某些知识发现的先期处理工作可以由底层的数据仓库系统完成。这些工作包括数据清洗,数据集成,数据综合(按多维和多层次聚集成组)。数据的选择作为系统挖掘查询的组成部分来完成。在系统中,对挖掘出的知识进行后期处理的大部分工作被集成到数据挖掘过程。这是因为数据挖掘查询不但指定了与任务相关的数据和挖掘任务,而且也指定了兴趣度量值(例如像支持度、置信度、噪声等挖掘阈值)和期望的规则模式。数据挖掘和模式评价的集成减少了搜索空间,使用户将精力集中到挖掘过程。

(6)时间序列分析:这个模块包括若干个分析功能,例如相似分析,周期分析,序列模式分析,趋势和背离分析。

①施工事实表、上报事实表、工程款事实表3个有关工程量的不含冗余数据的事实表;

系统可用于在关系数据库和数据仓库中的联机分析和数据挖掘。目前已经应用于从中等规模到大规模的关系数据库,具有快速的响应时间。实施阶段应以对所有特性进行综合测试。通过总结,在这个阶段上,有两个问题出现的频率相对较高:

(2)关联:该功能从多维数据库中挖掘一系列关联规则。这样获得的规则可用于市场分析、相关分析等。用户可以指定元模式以限制对规则的搜索。

3系统支持的挖掘任务

(5)预测:该功能将一组选定的数据对象的丢失或未知数据的值或值的分布进行预测。这涉及到选择一组与感兴趣的属性相关的属性(借助于某些统计分析),一组与选定对象类似的数据,然后作出值分布的预测。例如,一个雇员的可能的工资可以根据公司中与他相似雇员的工资分布而作出预测。

(1)olap分析器:这个功能是通过钻取、切块、切片和其他的olap操作,从不同的角度的多个抽象层次展现数据立方体中的内容。其输出可以用多种多样的可视化或图形的形式表示。此外,借助数据离差分析得到最大值、最小值、标准差以及其他分布情况,可以作为olap数据的注解。olap可以对综合数据感兴趣的部分进行钻取、切块以便做进一步分析。

②工程材料入库和出库两个不含冗余数据的有关工程材料的事实表;

2输入和输出

Copyright © 2003-2015 All rights reserved.http://www.999loveyou.com.cn小鱼儿玄机2站30姐妹,www55677con,品特轩wwwcom118822版权所有