种豆资源网

当前位置:首页 > 百科 > 百科综合 / 正文

数据挖掘概念与技术(第2版)

(2019-12-05 20:04:59) 百科综合
数据挖掘概念与技术(第2版)

数据挖掘概念与技术(第2版)

《数据挖掘概念与技术(第2版)》是2007年机械工业出版社出版的图书,作者是JiaweiHan(加)(加)MichelineKamber。

基本介绍

  • 书名:数据挖掘概念与技术(第2版)
  • 作者:Jiawei Han (加)(加)Micheline Kamber
  • 译者:范明孟小峰  
  • 出版社:机械工业出版社

基本资料

·页码:488 页
·出版日期:2007年
·ISBN:9787111205388
·条形码:9787111205388
·包装版本:2007年3月第1版
·装帧:平装
·开本:16开

内容简介

本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的最新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书第1版曾是受读者欢迎的数据挖掘专着,是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材,增加了讲述最新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材。

作者简介

Jiawei Han,伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系教授。由于在数据挖掘和资料库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,其中包括2004年ACM SIGKDD颁发的创新奖。同时,他还是ACM《Transactions on Knowledge Discovery from Data》的主编,以及IEEE《Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》的编委会成员。

目录

出版者的话
专家指导委员会
中文版序
译者序

前言
第1章 引言 1
1.1 什幺激发了数据挖掘,为什幺它是重要的 1
1.2 什幺是数据挖掘 3
1.3 对何种数据进行数据挖掘 6
1.3.1 关係资料库 6
1.3.2 数据仓库 8
1.3.3 事务资料库 10
1.3.4 高级数据和信息系统与高级套用 10
1.4 数据挖掘功能—可以挖掘什幺类型的模式 14
1.4.1 概念/类描述:特徵化和区分 14
1.4.2 挖掘频繁模式、关联和相关 15
1.4.3 分类和预测 15
1.4.4 聚类分析 17
1.4.5 离群点分析 17
.1.4.6 演变分析 18
1.5 所有模式都是有趣的吗 18
1.6 数据挖掘系统的分类 19
1.7 数据挖掘任务原语 20
1.8 数据挖掘系统与资料库系统或数据仓库系统的集成 22
1.9 数据挖掘的主要问题 23
1.10 小结 25
习题 26
文献注释 27
第2章 数据预处理 30
2.1 为什幺要预处理数据 30
2.2 描述性数据汇总 32
2.2.1 度量数据的中心趋势 32
2.2.2 度量数据的离散程度 34
2.2.3 基本描述数据汇总的图形显示 36
2.3 数据清理 39
2.3.1 缺失值 39
2.3.2 噪声数据 40
2.3.3 数据清理作为一个过程 41
2.4 数据集成和变换 43
2.4.1 数据集成 43
2.4.2 数据变换 45
2.5 数据归约 47
2.5.1 数据立方体聚集 47
2.5.2 属性子集选择 48
2.5.3 维度归约 49
2.5.4 数值归约 51
2.6 数据离散化和概念分层产生 55
2.6.1 数值数据的离散化和概念分层产生 56
2.6.2 分类数据的概念分层产生 60
2.7 小结 62
习题 62
文献注释 65
第3章 数据仓库与olap技术概述 67
3.1 什幺是数据仓库 67
3.1.1 运算元据库系统与数据仓库的区别 68
3.1.2 为什幺需要分离的数据仓库 69
3.2 多维数据模型 70
3.2.1 由表和电子数据表到数据立方体 70
3.2.2 星形、雪花形和事实星座形模式:多维资料库模式 72
3.2.3 定义星形、雪花形和事实星座形模式的例子 75
3.2.4 度量的分类和计算 76
3.2.5 概念分层 77
3.2.6 多维数据模型中的olap操作 79
3.2.7 查询多维资料库的星形网查询模型 81
3.3 数据仓库的系统结构 82
3.3.1 数据仓库的设计和构造步骤 82
3.3.2 三层数据仓库的系统结构 83
3.3.3 数据仓库后端工具和实用程式 85
3.3.4 元数据储存库 86
3.3.5 olap伺服器类型:rolap、
molap与holap 86
3.4 数据仓库实现 88
3.4.1 数据立方体的有效计算 88
3.4.2 索引olap数据 90
3.4.3 olap查询的有效处理 92
3.5 从数据仓库到数据挖掘 93
3.5.1 数据仓库的使用 93
3.5.2 由在线上分析处理到在线上分析挖掘 95
3.6 小结 96
习题 97
文献注释 99
第4章 数据立方体计算与数据泛化 101
4.1 数据立方体计算的有效方法 101
4.1.1 不同类型立方体物化的路线图 101
4.1.2 完全立方体计算的多路数组聚集 105
4.1.3 buc:从顶点方体向下计算冰山立方体 108
4.1.4 star-cubing:使用动态星形树结构计算冰山立方体 111
4.1.5 为快速高维olap预计算壳片段 116
4.1.6 计算具有複杂冰山条件的立方体 121
4.2 数据立方体和olap技术的进一步发展 122
4.2.1 数据立方体的发现驱动的探查 122
4.2.2 在多粒度的複杂聚集:多特徵立方体 124
4.2.3 数据立方体中被约束的梯度分析 126
4.3 面向属性的归纳—另一种数据泛化和概念描述方法 128
4.3.1 数据特徵化的面向属性的归纳 129
4.3.2 面向属性归纳的有效实现 132
4.3.3 导出泛化的表示 133
4.3.4 挖掘类比较:区分不同的类 136
4.3.5 类描述:特徵化和比较的表示 139
4.4 小结 140
习题 141
文献注释 144
第5章 挖掘频繁模式、关联和相关 146
5.1 基本概念和路线图 146
5.1.1 购物篮分析:引发性例子 146
5.1.2 频繁项集、闭项集和关联规则 147
5.1.3 频繁模式挖掘:路线图 149
5.2 有效的和可伸缩的频繁项集挖掘方法 150
5.2.1 apriori算法:使用候选产生髮现频繁项集 151
5.2.2 由频繁项集产生关联规则 154
5.2.3 提高apriori算法的效率 155
5.2.4 不候选产生挖掘频繁项集 156
5.2.5 使用垂直数据格式挖掘频繁项集 159
5.2.6 挖掘闭频繁项集 160
5.3 挖掘各种类型的关联规则 162
5.3.1 挖掘多层关联规则 162
5.3.2 从关係资料库和数据仓库挖掘多维关联规则 164
5.4 由关联挖掘到相关分析 168
5.4.1 强关联规则不一定有趣:一个例子 168
5.4.2 从关联分析到相关分析 168
5.5 基于约束的关联挖掘 172
5.5.1 关联规则的元规则制导挖掘 172
5.5.2 约束推进:规则约束制导的挖掘 173
5.6 小结 176
习题 177
文献注释 181
第6章 分类和预测 184
6.1 什幺是分类,什幺是预测.. 184
6.2 关于分类和预测的问题 186
6.2.1 为分类和预测準备数据 186
6.2.2 比较分类和预测方法 187
6.3 用决策树归纳分类 188
6.3.1 决策树归纳 189
6.3.2 属性选择度量 191
6.3.3 树剪枝 196
6.3.4 可伸缩性与决策树归纳 198
6.4 贝叶斯分类 200
6.4.1 贝叶斯定理 201
6.4.2 朴素贝叶斯分类 201
6.4.3 贝叶斯信念网路 204
6.4.4 训练贝叶斯信念网路 205
6.5 基于规则的分类 206
6.5.1 使用if-then规则分类 206
6.5.2 从决策树提取规则 208
6.5.3 使用顺序覆盖算法的规则归纳 209
6.6 用后向传播分类 212
6.6.1 多层前馈神经网路 213
6.6.2 定义网路拓扑 213
6.6.3 后向传播 214
6.6.4 黑盒内部:后向传播和可解释性 218
6.7 支持向量机 219
6.7.1 数据线性可分的情况 219
6.7.2 数据非线性可分的情况 222
6.8 关联分类:基于关联规则分析的分类 224
6.9 惰性学习法(或从近邻学习) 226
6.9.1 k最近邻分类法 226
6.9.2 基于案例的推理 228
6.10 其他分类方法 228
6.10.1 遗传算法 228
6.10.2 粗糙集方法 229
6.10.3 模糊集方法 229
6.11 预测 231
6.11.1 线性回归 231
6.11.2 非线性回归 233
6.11.3 其他基于回归的方法 234
6.12 準确率和误差的度量 234
6.12.1 分类器準确率度量 234
6.12.2 预测器误差度量 236
6.13 评估分类器或预测器的準确率 237
6.13.1 保持方法和随机子抽样 237
6.13.2 交叉确认 238
6.13.3 自助法 238
6.14 系综方法—提高準确率 238
6.14.1 装袋 239
6.14.2 提升 240
6.15 模型选择 241
6.15.1 估计置信区间 242
6.15.2 roc 曲线 243
6.16 小结 244
习题 245
文献注释 247
第7章 聚类分析 251
7.1 什幺是聚类分析 251
7.2 聚类分析中的数据类型 253
7.2.1 区间标度变数 253
7.2.2 二元变数 255
7.2.3 分类、序数和比例标度变数 256
7.2.4 混合类型的变数 259
7.2.5 向量对象 260
7.3 主要聚类方法的分类 261
7.4 划分方法 263
7.4.1 典型的划分方法:k均值和k中心点 263
7.4.2 大型资料库的划分方法:从k中心点到clarans 266
7.5 层次方法 267
7.5.1 凝聚和分裂层次聚类 267
7.5.2 birch:利用层次方法的平衡叠代归约和聚类 269
7.5.3 rock:分类属性的层次聚类算法 271
7.5.4 chameleon:利用动态建模的层次聚类算法 272
7.6 基于密度的方法 273
7.6.1 dbscan:一种基于高密度连通区域的基于密度的聚类方法 273
7.6.2 optics:通过点排序识别聚类结构 275
7.6.3 denclue:基于密度分布函式的聚类 276
7.7 基于格线的方法 278
7.7.1 sting:统计信息格线 278
7.7.2 wavecluster:利用小波变换聚类 279
7.8 基于模型的聚类方法 280
7.8.1 期望最大化方法 280
7.8.2 概念聚类 281
7.8.3 神经网路方法 283
7.9 聚类高维数据 284
7.9.1 clique:维增长子空间聚类方法 285
7.9.2 proclus:维归约子空间聚类方法 287
7.9.3 基于频繁模式的聚类方法 287
7.10 基于约束的聚类分析 290
7.10.1 含有障碍物的对象聚类 291
7.10.2 用户约束的聚类分析 293
7.10.3 半监督聚类分析 293
7.11 离群点分析 295
7.11.1 基于统计分布的离群点检测 295
7.11.2 基于距离的离群点检测 296
7.11.3 基于密度的局部离群点检测 298
7.11.4 基于偏差的离群点检测 299
7.12 小结 300
习题 301
文献注释 303
第8章 挖掘流、时间序列和序列数据 306
8.1 挖掘数据流 306
8.1.1 流数据处理方法和流数据系统 307
8.1.2 流olap和流数据立方体 310
8.1.3 数据流中的频繁模式挖掘 314
8.1.4 动态数据流的分类 315
8.1.5 聚类演变数据流 318
8.2 时间序列数据挖掘 320
8.2.1 趋势分析 320
8.2.2 时间序列分析中的相似性搜寻 323
8.3 挖掘事务资料库中的序列模式 325
8.3.1 序列模式挖掘:概念和原语 326
8.3.2 挖掘序列模式的可伸缩方法 327
8.3.3 基于约束的序列模式挖掘 333
8.3.4 时间相关序列数据的周期性分析 335
8.4 挖掘生物学数据中的序列模式 336
8.4.1 生物学序列比对 336
8.4.2 生物学序列分析的隐马尔可夫模型 339
8.5 小结 345
习题 346
文献注释 348
第9章 图挖掘、社会网路分析和多关係数据挖掘 351
9.1 图挖掘 351
9.1.1 挖掘频繁子图的方法 351
9.1.2 挖掘变体和约束子结构的模式 357
9.1.3 套用:图索引、相似性搜寻、分类和聚类 361
9.2 社会网路分析 363
9.2.1 什幺是社会网路 363
9.2.2 社会网路的特徵 365
9.2.3 连结挖掘:任务和挑战 367
9.2.4 挖掘社会网路 369
9.3 多关係数据挖掘 373
9.3.1 什幺是多关係数据挖掘 373
9.3.2 多关係分类的ilp方法 375
9.3.3 元组id传播 376
9.3.4 利用元组id传播进行多关係分类 377
9.3.5 用户指导的多关係聚类 379
9.4 小结 382
习题 383
文献注释 384
第10章 挖掘对象、空间、多媒体、文本和web数据 386
10.1 複杂数据对象的多维分析和描述性挖掘 386
10.1.1 结构化数据的泛化 386
10.1.2 空间和多媒体数据泛化中的聚集和近似 387
10.1.3 对象标识和类/子类层次的泛化 388
10.1.4 类複合层次泛化 388
10.1.5 对象立方体的构造与挖掘 389
10.1.6 用分治法对规划资料库进行基于泛化的挖掘 389
10.2 空间数据挖掘 391
10.2.1 空间数据立方体构造和空间olap 392
10.2.2 挖掘空间关联和并置模式 395
10.2.3 空间聚类方法 396
10.2.4 空间分类和空间趋势分析 396
10.2.5 挖掘光栅资料库 396
10.3 多媒体数据挖掘 396
10.3.1 多媒体数据的相似性搜寻 396
10.3.2 多媒体数据的多维分析 397
10.3.3 多媒体数据的分类和预测分析 399
10.3.4 挖掘多媒体数据中的关联 399
10.3.5 音频和视频数据挖掘 400
10.4 文本挖掘 401
10.4.1 文本数据分析和信息检索 401
10.4.2 文本的维度归约 405
10.4.3 文本挖掘方法 407
10.5 挖掘全球资讯网 410
10.5.1 挖掘web页面布局结构 411
10.5.2 挖掘web连结结构识别权威web页面 413
10.5.3 挖掘web上的多媒体数据 416
10.5.4 web文档的自动分类 418
10.5.5 web使用挖掘 418
10.6 小结 419
习题 420
文献注释 421
第11章 数据挖掘的套用和发展趋势 424
11.1 数据挖掘的套用 424
11.1.1 金融数据分析的数据挖掘 424
11.1.2 零售业的数据挖掘 425
11.1.3 电信业的数据挖掘 426
11.1.4 生物学数据分析的数据挖掘 427
11.1.5 其他科技套用的数据挖掘 428
11.1.6 入侵检测的数据挖掘 429
11.2 数据挖掘系统产品和研究原型 430
11.2.1 如何选择数据挖掘系统 431
11.2.2 商用数据挖掘系统的实例 432
11.3 数据挖掘的其他主题 433
11.3.1 数据挖掘的理论基础 434
11.3.2 统计学数据挖掘 434
11.3.3 可视数据和音频数据挖掘 435
11.3.4 数据挖掘和协同过滤 440
11.4 数据挖掘的社会影响 440
11.4.1 无处不在和无形的数据挖掘 441
11.4.2 数据挖掘、隐私和数据安全 443
11.5 数据挖掘的发展趋势 445
11.6 小结 446
习题 447
文献注释 449
附录 微软用于数据挖掘的ole db简介 452
a.1 模型创建 453
a.2 模型训练 454
a.3 模型预测和浏览 456
索引 460

标 签

搜索
随机推荐

Powered By 种豆资源网||