阿里巴巴技术专家多年经验结晶,通过实际数据挖掘项目经验,深入浅出阐明数据挖掘的本质。 以案例驱动为导向,结合理论分析,内容涵盖数据挖掘领域的所有关键技术,包含基础知识、聚类、分类、回归与套用。
基本介绍
- 书名:数据挖掘核心技术揭秘
- 作者:贾双成 王奇
- ISBN:9787111519249
- 页数:201
- 出版社:机械工业出版社
- 出版时间:2016 年1月
- 开本:16开
图书简介
《数据挖掘核心技术揭秘》包括五部分内容。部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及套用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术和离群点挖掘技术阐述聚类在语音区分、新闻分组、销售策略制定、交通事故预测、欺诈检测、入侵检测、异常气候检测等方面的套用。第三部分(第6~11章)分别从决策树、基于实例的学习、支持向量机、贝叶斯学习、人工神经网路、遗传算法在病情诊断、信用卡欺诈、机械装备设计、法律案件审理、动物分类、垃圾邮件过滤、手写文字识别、股票价格预测、人脸识别、音乐生成等方面阐述分类的套用。第四部分(第12章)阐述回归数据挖掘技术的套用,涉及卡尔曼算法在股票价格预测、GPS定位方面的套用。第五部分(第13章)介绍推荐系统这个典型的数据挖掘套用。附录总结本书内容,阐述数据挖掘技术的数学本质。
作者简介
贾双成,江南大学硕士,现为阿里巴巴高级工程师,擅长于数据编译、数据挖掘的系统分析和架构设计,研究方向包括几何算法、数据编译、数据挖掘算法及套用。
曾发表专利、论文三十余篇。在研究算法之余,也喜欢涉猎管理学、哲学、心理学、历史等领域的知识。
王奇,阿里巴巴工程师,北京航空航天大学硕士,擅长于智慧型交通数据处理、数据挖掘,研究方向包括导航定位、浮动车处理、数据挖掘算法及套用。
曾发表发明专利、论文10余项或篇,喜欢旅游,爱好阅读,广泛涉猎文学、小说、经济类书籍。
曾发表专利、论文三十余篇。在研究算法之余,也喜欢涉猎管理学、哲学、心理学、历史等领域的知识。
王奇,阿里巴巴工程师,北京航空航天大学硕士,擅长于智慧型交通数据处理、数据挖掘,研究方向包括导航定位、浮动车处理、数据挖掘算法及套用。
曾发表发明专利、论文10余项或篇,喜欢旅游,爱好阅读,广泛涉猎文学、小说、经济类书籍。
图书目录
前 言
第一部分 基 础 知 识
第一部分 基 础 知 识
第1章 引言2
1.1 数据挖掘的含义2
1.2 数据挖掘的演变过程3
1.3 数据工具简介4
1.3.1 Hadoop与MapReduce5
1.3.2 Pig语言8
1.3.3 MATLAB编程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R语言编程12
1.4 数据挖掘套用领域13
1.5 小结14
第2章 数学基础15
2.1 机率统计16
2.1.1 基本概念16
2.1.2 随机变数及其分布19
2.2 相似度24
2.2.1 期望与方差25
1.1 数据挖掘的含义2
1.2 数据挖掘的演变过程3
1.3 数据工具简介4
1.3.1 Hadoop与MapReduce5
1.3.2 Pig语言8
1.3.3 MATLAB编程9
1.3.4 SAS9
1.3.5 WEKA12
1.3.6 R语言编程12
1.4 数据挖掘套用领域13
1.5 小结14
第2章 数学基础15
2.1 机率统计16
2.1.1 基本概念16
2.1.2 随机变数及其分布19
2.2 相似度24
2.2.1 期望与方差25
2.2.2 距离27
2.2.3 相关係数31
2.3 矩阵计算34
2.4 最小二乘法39
2.4.1 最小二乘法定义39
2.4.2 回归40
2.4.3 参数的最小二乘法估计42
第3章 海量数据处理技术46
3.1 索引技术46
3.1.1 资料库索引46
3.1.2 文本索引49
3.2 海量数据处理技术52
3.2.1 外排序53
3.2.2 分散式处理53
3.2.3 Bloom filter54
3.2.4 常用技巧55
第二部分 聚 类
第4章 聚类58
4.1 套用场景58
4.1.1 语音区分58
4.1.2 新闻分组59
4.1.3 选定销售策略59
4.1.4 交通事件预测59
4.2 聚类技术60
4.2.1 划分聚类61
4.2.2 层次聚类67
4.2.3 基于密度的聚类70
4.2.4 基于格线的聚类72
4.3 多元分析72
4.3.1 主成分分析法73
4.3.2 因子分析83
4.3.3 对比分析83
第5章 离群点挖掘技术85
5.1 套用场景85
5.1.1 异常交通事件检测85
5.1.2 欺诈检测85
5.1.3 入侵检测86
5.1.4 异常气候检测86
5.2 离群点挖掘技术86
5.2.1 基于统计的离群点挖掘技术87
5.2.2 基于邻近度的离群点挖掘技术88
5.2.3 基于密度的离群点挖掘技术89
5.2.4 基于聚类的离群点挖掘技术92
5.2.5 高维数据的离群点检测算法93
第三部分 分 类
第6章 决策树98
6.1 套用场景98
6.1.1 病情诊断98
6.1.2 信用卡欺诈检测98
6.2 决策树技术99
6.2.1 概述99
6.2.2 技术实现100
6.2.3 多分类决策树104
6.2.4 参考实例106
第7章 基于实例的学习108
7.1 套用场景108
7.1.1 机械装备的总体设计108
7.1.2 对新的法律案件的推理109
7.1.3 规划或调度问题109
7.2 K近邻算法110
7.3 K-D树111
7.3.1 近邻的实现:K-D树111
7.3.2 K-D树的构建112
7.3.3 K-D树的最近邻搜寻算法113
第8章 支持向量机115
8.1 套用场景115
8.1.1 病情分类115
8.1.2 动物分类116
8.2 支持向量机技术116
8.2.1 概述116
8.2.2 技术实现118
8.2.3 核函式122
8.2.4 多类分类器124
第9章 贝叶斯学习126
9.1 套用场景126
9.1.1 垃圾邮件过滤126
9.1.2 手写文字识别127
9.1.3 拼写检查128
9.1.4 分词128
9.1.5 语音识别129
9.1.6 股票价格预测129
9.1.7 病情诊断129
9.1.8 选定销售策略130
9.1.9 交通事件预测130
9.2 贝叶斯学习技术131
9.2.1 概述131
9.2.2 技术实现131
9.2.3 参考实例135
第10章 人工神经网路138
10.1 套用场景138
10.1.1 信用卡欺诈检测138
10.1.2 病情诊断139
10.1.3 足球比赛预测139
10.1.4 图像姿势识别139
10.1.5 利用图像识别的自动驾驶140
10.1.6 人脸识别140
10.1.7 语音分类识别141
10.2 人工神经网路技术142
10.2.1 概述142
10.2.2 技术实现142
10.2.3 参考实例145
第11章 遗传算法152
11.1 套用场景152
11.1.1 私人定製的电影152
11.1.2 西洋棋学习153
11.1.3 电路设计154
11.1.4 机器人的模拟控制154
11.1.5 函式设计154
11.1.6 唐诗生成器155
11.1.7 音乐生成器155
11.2 遗传技术155
11.2.1 概述155
11.2.2 技术实现158
11.2.3 参考实例:背包问题166
第四部分 回 归
第12章 卡尔曼算法170
12.1 套用场景170
12.1.1 股票价格预测170
12.1.2 GPS定位预测171
12.2 卡尔曼技术171
12.2.1 卡尔曼算法定义171
12.2.2 技术实现172
12.2.3 参考实例:GPS定位175
第五部分 应 用
第13章 推荐系统180
13.1 套用场景181
13.1.1 歌曲推荐181
13.1.2 QQ好友圈子的推荐功能182
13.1.3 今日头条183
13.1.4 淘宝商品推荐184
13.1.5 Netflix电影推荐184
13.1.6 豆瓣FM的推荐185
13.1.7 为用户定製的广告185
13.1.8 苹果APP排名的规则186
13.2 推荐系统技术186
13.2.1 协同过滤187
13.2.2 基于内容的推荐188
13.2.3 推荐系统的缺陷189
13.2.4 潜在因子算法190
13.2.5 参考实例:音乐推荐193
附录A 数据挖掘技术总结197
2.2.3 相关係数31
2.3 矩阵计算34
2.4 最小二乘法39
2.4.1 最小二乘法定义39
2.4.2 回归40
2.4.3 参数的最小二乘法估计42
第3章 海量数据处理技术46
3.1 索引技术46
3.1.1 资料库索引46
3.1.2 文本索引49
3.2 海量数据处理技术52
3.2.1 外排序53
3.2.2 分散式处理53
3.2.3 Bloom filter54
3.2.4 常用技巧55
第二部分 聚 类
第4章 聚类58
4.1 套用场景58
4.1.1 语音区分58
4.1.2 新闻分组59
4.1.3 选定销售策略59
4.1.4 交通事件预测59
4.2 聚类技术60
4.2.1 划分聚类61
4.2.2 层次聚类67
4.2.3 基于密度的聚类70
4.2.4 基于格线的聚类72
4.3 多元分析72
4.3.1 主成分分析法73
4.3.2 因子分析83
4.3.3 对比分析83
第5章 离群点挖掘技术85
5.1 套用场景85
5.1.1 异常交通事件检测85
5.1.2 欺诈检测85
5.1.3 入侵检测86
5.1.4 异常气候检测86
5.2 离群点挖掘技术86
5.2.1 基于统计的离群点挖掘技术87
5.2.2 基于邻近度的离群点挖掘技术88
5.2.3 基于密度的离群点挖掘技术89
5.2.4 基于聚类的离群点挖掘技术92
5.2.5 高维数据的离群点检测算法93
第三部分 分 类
第6章 决策树98
6.1 套用场景98
6.1.1 病情诊断98
6.1.2 信用卡欺诈检测98
6.2 决策树技术99
6.2.1 概述99
6.2.2 技术实现100
6.2.3 多分类决策树104
6.2.4 参考实例106
第7章 基于实例的学习108
7.1 套用场景108
7.1.1 机械装备的总体设计108
7.1.2 对新的法律案件的推理109
7.1.3 规划或调度问题109
7.2 K近邻算法110
7.3 K-D树111
7.3.1 近邻的实现:K-D树111
7.3.2 K-D树的构建112
7.3.3 K-D树的最近邻搜寻算法113
第8章 支持向量机115
8.1 套用场景115
8.1.1 病情分类115
8.1.2 动物分类116
8.2 支持向量机技术116
8.2.1 概述116
8.2.2 技术实现118
8.2.3 核函式122
8.2.4 多类分类器124
第9章 贝叶斯学习126
9.1 套用场景126
9.1.1 垃圾邮件过滤126
9.1.2 手写文字识别127
9.1.3 拼写检查128
9.1.4 分词128
9.1.5 语音识别129
9.1.6 股票价格预测129
9.1.7 病情诊断129
9.1.8 选定销售策略130
9.1.9 交通事件预测130
9.2 贝叶斯学习技术131
9.2.1 概述131
9.2.2 技术实现131
9.2.3 参考实例135
第10章 人工神经网路138
10.1 套用场景138
10.1.1 信用卡欺诈检测138
10.1.2 病情诊断139
10.1.3 足球比赛预测139
10.1.4 图像姿势识别139
10.1.5 利用图像识别的自动驾驶140
10.1.6 人脸识别140
10.1.7 语音分类识别141
10.2 人工神经网路技术142
10.2.1 概述142
10.2.2 技术实现142
10.2.3 参考实例145
第11章 遗传算法152
11.1 套用场景152
11.1.1 私人定製的电影152
11.1.2 西洋棋学习153
11.1.3 电路设计154
11.1.4 机器人的模拟控制154
11.1.5 函式设计154
11.1.6 唐诗生成器155
11.1.7 音乐生成器155
11.2 遗传技术155
11.2.1 概述155
11.2.2 技术实现158
11.2.3 参考实例:背包问题166
第四部分 回 归
第12章 卡尔曼算法170
12.1 套用场景170
12.1.1 股票价格预测170
12.1.2 GPS定位预测171
12.2 卡尔曼技术171
12.2.1 卡尔曼算法定义171
12.2.2 技术实现172
12.2.3 参考实例:GPS定位175
第五部分 应 用
第13章 推荐系统180
13.1 套用场景181
13.1.1 歌曲推荐181
13.1.2 QQ好友圈子的推荐功能182
13.1.3 今日头条183
13.1.4 淘宝商品推荐184
13.1.5 Netflix电影推荐184
13.1.6 豆瓣FM的推荐185
13.1.7 为用户定製的广告185
13.1.8 苹果APP排名的规则186
13.2 推荐系统技术186
13.2.1 协同过滤187
13.2.2 基于内容的推荐188
13.2.3 推荐系统的缺陷189
13.2.4 潜在因子算法190
13.2.5 参考实例:音乐推荐193
附录A 数据挖掘技术总结197
图书前言
我们畅想一下未来,想像未来社会的样子。
未来社会每个人都与多台智慧型设备绑定,每个人如同一个数据提供商,不停地向网路上传送数据:自己的照片、爱好、欲望、蹤迹等。而网路上这些数据也不停地得到反馈:周围的人(另一些数据提供商)给这些数据加赞、评论。
未来的总统大选是基于数据挖掘而建立的,所讲的每一句话都是数据挖掘的结果,数据挖掘就这样决定了未来政治的形态。
未来的娱乐也是数据挖掘的结果,只要你需要,一切都是数据挖掘自动生成的,包括电影、小说等,它们都是根据需要而生成的。人在按照需求改造外在世界的同时,由于对计算机的强烈依赖,人已经沉溺在一个计算机世界里,被计算机完全包围,计算机成为人的第二个大脑。
在这里,对其他人来说,每个人就是手机或者电视里的一个影像,这个影像是可以进行保存、複製、贴上等各种数据加工的。
试看捷运上、餐馆里绝大多数的人是不是在低头看手机?
这是一种不可阻挡的趋势,这种趋势只会愈演愈烈。
不久的将来,这种趋势必将给社会伦理学、社会规範带来一场真正意义的革命,所有社会性的常识、规範都将重塑,包括社交、娱乐、休闲、购物、分享等群体交际的行为都将得到全新变革。这些群体性行为好像人这个“硬体”上面附属的作业系统一样,由于大数据时代的带来,将会被更换一套全新的作业系统,这套作业系统是由数据组成的。
我们能做什幺呢?
我们能做的只有去适应。
数据挖掘就是能让未来生活更美好的唯一出路。在未来的社会,不管你想做成什幺,归根到底都要求助于各种各样的数据处理。
以开餐馆为例。
在什幺地方开餐馆取决于周围客流和周围人的饮食喜好等情况。
选单的菜品取决于周围餐馆的差异化竞争和就餐人群的饮食喜好。
招聘服务员所给的工资取决于周围行业的工资。
对服务员的培训可参考KFC等企业的培训。
……
数据挖掘是一个如此重要的领域,但是,在目前的市场上,大部分书籍都是外国的翻译书籍,偶尔有国内的书籍,基本上也是纸上谈兵的泛泛之谈,书中所讲的技术和实现与目前企业界的技术与实现严重不符,技术人员获得的帮助有限。
本书是作者为了解决这个问题的一个尝试。本书以企业界的实际案例为主,力求揭示数据挖掘技术的本质,不拘泥于文字和名词。
一本参考书需要经过许多人的使用和反馈之后才能变得更加完善。由于本书作者的经验和时间有限,书中的错误和纰漏难免,敬请读者不吝指正。
. 贾双成王奇