数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
基本介绍
- 中文名:数据挖掘技术
- 挖掘範围:数据
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
- 关联分析
关联规则挖掘是由拉克什·艾活(Rakesh Apwal)等人首先提出来的。两个或两个以上变数的取值之间存在某种规律性,就称为关联。数据关联是资料库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析(Association Analysis)的目的是找出资料库隐藏的网际网路。一般用支持度和可信度两个阙值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合要求。
2.聚类分析
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析(Clustering Analysis)可以建立巨观的概念,发现数据的分布模式,以及可能的数据属性之间的 相互关係。
3. 分类
分类(Classification)就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
4. 预测
预测(predication)是指利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特徵进行预测。预测关心的是精度和不确定性,通常用预测方差来度量
5. 时序模式
时序模式(Time-series pattern)是指通过时间序列搜寻出的重複发生率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变数所处时间的不同。
6. 偏差分析(Deviation Analysis)
在偏差中包括很多非常有用的知识,资料库中的数据存在很多异常情况,发现资料库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找检查结果与参照之间的差别。