种豆资源网

当前位置:首页 > 百科 > 百科综合 / 正文

数据挖掘系统

(2019-04-26 06:33:59) 百科综合
数据挖掘系统

数据挖掘系统

数据挖掘系统(data mining system)是指从存放在资料库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的系统。近年来为了推动数据挖掘在实际中的套用,许多研究者对数据挖掘系统的体系结构做了大量的研究工作。

基本介绍

  • 中文名:数据挖掘系统
  • 外文名:data mining system
  • 特点:5种
  • 种类:分散式和集中式
  • 技术:数据挖掘
  • 发展趋势:5个方面

简介

数据挖掘(data mining)又称为资料库中的知识发现,是指从存放在资料库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。近年来为了推动数据挖掘在实际中的套用,许多研究者对数据挖掘系统的体系结构做了大量的研究工作。

特点

一个结构合理的数据挖掘系统应该具有以下几个特点:
(1)系统功能和辅助工具的完备性;
(2)系统的可扩展性;
(3)支持多种数据源;
(4) 对大数据量的处理能力;
(5) 良好的用户界面和结果展示能力。
当前出现的数据挖掘系统主要包括集中式的和分散式的数据挖掘系统,而每种系统的具体结构及其各个组成部分却有多种不同的实现技术和实现方式。

集中式的数据挖掘系统

单一资料库/数据仓库的数据挖掘系统是当前发展得较为成熟的数据挖掘套用系统,许多商业性的数据挖掘套用软体都是基于这种结构。通过对当前主要的数据挖掘系统进行分析可以发现,这种集中式的结构如图所示,但各个不同产品对各个不同功能模组的具体实现技术又不尽相同。
集中式数据挖掘系统的体系结构集中式数据挖掘系统的体系结构

用户界面及知识表示层

在该层通过提供友好的用户界面及利用数据可视化技术展示挖掘结果,可以大大提高系统的易用性,数据挖掘的可视化是指利用可视化技术从大量的数据集中发现隐含的和有用的知识。数据挖掘的可视化主要包括数据的可视化、挖掘过程的可视化和挖掘模型的可视化,当前的可视化技术主要包括传统的几何学方法( 如曲线图、直方图、散点图、饼图等)、SOM 网可视化技术、平行坐标系技术、面向象素的可视化技术等。基于SOM网路和基于平行坐标系的可视化技术是目前套用较多的2项技术,它们的原理都是通过把高维数据映射为二维数据从而将数据显示在二维平面上。如汪加才等设计的一个基于SOM 网的可视化挖掘系统VISMiner,刘勘等研究了平行坐标系技术在数据挖掘系统中的具体套用。

控制层

控制层用于控制系统的执行流程,协调各功能部件间的关係和执行顺序,主要包括对数据挖掘任务进行解析,并根据任务解析的结果判断挖掘任务涉及到的数据和应该採用的数据挖掘算法。
数据挖掘任务一般是通过数据挖掘语言定义和解释的,当前许多研究者提出了自己的数据挖掘语言,这些语言从结构上看都是类SQL语言,如DMQL语言等, 但是并没有实现挖掘语言的标準化。2000年3月,微软推出了一个新的数据挖掘语言规範OLE DB for Data Mining,向着数据挖掘语言标準化又迈进了一大步,Amir Netz等详细介绍了如何将OLE DB for DM规範套用到数据挖掘系统之中。

数据源层

为了提高数据的一致性和完整性,进行数据挖掘前首先应将分散存储在多个数据源中的数据通过数据清理和数据集成等预处理操作集成到一个统一的资料库/ 数据仓库中。为了提高系统的可扩展性,禁止数据源採用的具体资料库产品,资料库接口应该採用ODBC、JDBC或OLE DB等技术,以便于更改数据源。赵志宏、钱卫宁等分别提出了基于数据仓库和大规模资料库的数据挖掘系统框架及其套用。
资料库可以通过4种形式集成到数据挖掘系统中:无藕合的,松藕合的,半松藕合的和紧藕合的。最理想的是紧藕合方式,即通过把数据挖掘查询最佳化成循环的数据挖掘和检索过程从而将2者结合起来,这样可以充分利用资料库所具有的查询、汇总等数据处理功能,减少数据挖掘系统开发负担,提高系统的效率。Rosa Meo提出了一种使用数据挖掘语言Mine Rul e 实现与资料库紧藕合的数据挖掘系统框架。

待挖掘数据层

该层为数据挖掘层提供符合数据挖掘算法要求的待挖掘数据集,待挖掘数据集是由数据源层中与挖掘任务相关的数据经过数据变换和数据规约等数据预处理操作形成的。
除了直接基于资料库/ 数据仓库中的数据进行挖掘外,数据挖掘还可以基于在线上分析处理(OLAP)进行,称作在线上分析挖掘(OLAM)。由于OLAM将2 者结合了起来,充分发挥2 者的优点,所以可以使数据挖掘具有较高的效率和良好的互动性。Jia-wei Han 教授等提出了一种OLAP和DM集成的OLAM系统的结构框架,并且开发出了基于这种结构的一个数据挖掘系统BD Miner。Sanjay Goil等研究了一种基于并行处理技术的可扩展的OLAP和数据挖掘集成的系统体系结构。

挖掘层

该层是数据挖掘系统的核心,该层的具体实现直接关係到整个系统的功能性和可扩展性。数据挖掘主要包括概念/ 类描述、关联规则分析、分类及预测、聚类分析、孤立点分析和演变分析等几种类型的模式的挖掘,针对各种类型的模式人们又都提出了多种不同的实现算法,对于一个特定的数据挖掘系统应该包括哪些类型的模式挖掘算法则要由该系统的开发目的及其面向的具体套用领域来决定。
为了提高系统的可扩展性,许多系统採用了组件技术来实现数据挖掘算法及其管理。当前比较成熟的组件技术主要有COM / DCOM、EJB / Java RMI和CORBA / IIOP,组件是指套用系统中可以明确辨识的、具有一定功能的构成模组,一个组件的典型结构包括组件接口和组件实现2 部分,组件接口和组件实现是相互分离的,只要在应用程式中保持统一的接口标準,就可以方便地在系统中加人或替换组件。如刘君强等设计的smart Miner数据挖掘系统中的算法模组採用了组件对象模型COM技术进行构造,并通过算法描述库为组件提供注册机制,任何符合COM标準的算法模组可方便地加入到系统中。在史忠植等人研究开发的MSMiner系统中各种数据挖掘核心算法以动态程式库DLL的形式加以实现,并可以在系统运行过程中动态载入,该系统中还提供了专门的算法管理模组,通过挖掘算法库管理各种挖掘算法, 并通过元数据的形式提供算法的注册机制。

知识评价及知识表示层

在将挖掘结果呈现给用户之前通过知识评价可以有效地去除冗余的、无用的挖掘结果, 对提高系统的可用性有着重要的意义.知识评价的度量标準主要包括有效性、新颖性、潜在有用性和最终可理解性. 聂艳霞等详细介绍了知识评价与数据挖掘过程结合的4 种方式。
数据挖掘系统挖掘的知识模式经过知识评价后可以存储在知识库中以便重用,为了便于不同数据挖掘系统间知识模式的共享,DMG组织(the data mining)提出了预言模型标记语言PMML(prediction model markup language),PMML是一种基于XML的语言,为数据挖掘产生的预言模型提供了一种统一的定义和描述标準,使得遵循该标準的不同厂商的数据挖掘系统之间可以方便地共享预言模型,提高了模型的可重用性和系统的可扩展性。Wettschereck等介绍了PMML在模型交换中的套用。
上面对集中式数据挖掘系统的各个组成部分的实现技术做了详细介绍,目前已出现了许多基于集中式结构的商业数据挖掘软体并开始得到广泛的套用。比较有影响的商业软体主要有SAS公司的Enterprise Miner,IBM公司的Intelligent Miner和SPS公司的Clementine等。Enterprise Miner实现了与SAS数据仓库和OLAP的集成,可以实现从提出数据、抓住数据到得到解答的端到端的知识发现。Intelligent Miner for Data支持对多种数据源的挖掘,如传统档案、资料库、数据仓库和数据中心等。Clementine採用了数据挖掘过程模型CRISP-DM,能让用户轻鬆、容易且有效地执行与管理整个数据挖掘的工作。同时这3 种软体目前都提供了对PMML 2.1的支持,实现了挖掘模型的共享。

分散式的数据挖掘系统

随着网路技术和分散式资料库技术的发展和成熟, 分散式资料库已经得到越来越广泛的套用, 原来数据的集中式存储和管理也逐渐转变为分散式存储和管理. 数据存储方式的变化也必然会促进数据挖掘技术及其系统结构的变化. 由于实际套用中数据的安全性、私有性、保密性以及网路的频宽限制, 使得首先将分散存储的数据集中到一个资料库中再进行挖掘的方法是不可行的, 因此分散式数据挖掘成为在分散式资料库中进行数据挖掘的最为可行的解决办法。

步骤

分散式数据挖掘包括以下几个步骤:
(1)剖分待挖掘数据成P个子集,P为可用的处理器个数,并把每个数据子集传送到各个处理器;
(2)每个处理器运行数据挖掘算法于其局部数据子集,处理器可以运行不同的数据挖掘算法;
(3)组合各个数据挖掘算法发现的局部知识成全局、一致的发现知识。

研究内容

在分散式数据挖掘中有4 种关键技术:数据集中、并行数据挖掘、知识吸收和分散式软体引擎。
分散式数据挖掘的研究主要包括分散式数据挖掘算法和分散式数据挖掘体系结构的研究2 个方面.当前已经出现不少分散式和并行的数据挖掘算法, 如并行挖掘关联规则的算法CD (count distribution)、DD (Data distribution),以及PDM 等。在分散式数据挖掘系统结构方面,也已出现了许多基于不同技术的体系结构。如张学明等研究了一种基于CORBA技术并採用多执行绪并行数据挖掘机制的分散式并行体系结构。陈刚对基于移动Agent技术的分散式数据挖掘体系结构进行了研究。侯敬军等则提出了一种基于Web Services的分散式体系结构,可实现分散式异构环境下的大容量数据的数据挖掘研究了一种用于电子商务套用的基于异构和分散式环境的联邦式数据挖掘系统。Omer Rana等提出了一种基于组件技术的具有良好可扩展性的分散式数据挖掘系统框架,该框架可以方便地集成第3 方外挂程式和用户自定义组件。
与集中式数据挖掘系统不同,当前分散式数据挖掘系统还主要处在研究阶段,还没有出现成熟的商业产品。分散式数据挖掘当前的研究热点主要集中在对超大规模数据集的处理以及提高分散式挖掘系统的整体性能,Grossman等人提出了一种称为PDS的集成框架,在该框架中首次集成了支持远程数据分析和分散式数据挖掘的数据服务,设计用于在高性能网路上进行高效数据传输的网路协定以及设计用于光纤网路的链路服务,该框架可用于进行Gigabyte大数据量的分散式数据挖掘。

发展趋势

当前已出现的商业化数据挖掘软体进一步推动了数据挖掘技术的普及和发展,但在实际套用中仍存在不少问题和需要继续研究改进之处,当前主要的研究方向和发展趋势包括以下几个方面:
(1)增强可视化和互动性。一个具有良好的可视化和互动功能的数据挖掘系统可以使用户直观地看和理解数据挖掘任务的定义和执行过程,减少用户挖掘知识的盲目性和挖掘过程中大量无关模式的产生,提高系统的挖掘效率及用户对挖掘结果的满意度和可信度。
(2)提高可可扩展性。由于用户的套用环境是不断变化的,因此可扩展性对于数据挖掘系统来说非常重要,系统应该支持多种数据源的挖掘以及挖掘算法的可扩展性,允许用户根据需要加入新的算法。
(3)与特定行业套用相结合。随着套用环境的发展,通用的数据挖掘系统已越来越不能满足用户的需要,用户如果不了解挖掘算法的特性就很难得出好的模型,因此数据挖掘系统应该和特定的套用紧密结合起来, 为该套用领域提供一个完整的解决方案。
4) 遵循统一标準。儘管目前数据挖掘还没有形成一套完整的业界标準, 但已出现了一些标準, 如数据挖掘过程标準CRISP DM、预言模型交换标準PMML和Microsoft的OLE DB for DM。遵循统一标準的数据挖掘系统间可以方便地实现挖掘算法和模型的共享。
5) 支持移动环境。目前将数据挖掘和移动计算相结合是一个新的研究领域,因此能够挖掘移动系统、嵌入式系统和普遍存在的计算设备所产生数据的数据挖掘系统是未来的一个新的发展趋势。

标 签

搜索
随机推荐

Powered By 种豆资源网||