《大数据分析与数据挖掘》是2016年清华大学出版社出版的图书,作者是简祯富、许嘉裕。
基本介绍
- 书名:大数据分析与数据挖掘
- 作者:简祯富、许嘉裕
- ISBN:9787302424253
- 定价:49
- 出版社:清华大学出版社
- 出版时间:2016.03.01
图书简介
《大数据分析与数据挖掘》综合大数据分析与数据挖掘的理论、技术和实际案例,以丰富的产学合作实务案例,深入浅出地剖析从大数据中掏金的秘诀。全书内容涵盖大数据分析与数据挖掘的基本概念、数据準备、大数据分析的方法与实证及相关的进阶运用,并佐以R语言及例题实作,提升读者的数据挖掘实战能力,开拓对大数据分析的洞察视野。
随着移动通信和行动装置普及、物联网和网路发展,以及云端技术的不断进步,现今数据产生、蒐集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。
本书主要介绍数据挖掘与大数据分析的理论方法与实践套用,并加入丰富的实务案例介绍,具体说明如何套用数据挖掘与大数据分析技术以解决真实问题,深入浅出地剖析从数据中掏金的秘诀。全书共分为13章,内容涵盖数据挖掘基本概念与数据準备、数据挖掘的方法与实证、数据挖掘的进阶运用;书中也提供R语言与编程实例辅以说明,使读者更能融会贯通地套用数据挖掘方法,进而提升大数据分析和数字决策能力。
前言
1992年我到美国威斯康星大学麦迪逊分校攻读决策科学与作业研究博士时,发现我在新竹“清华大学”念的机率、统计、实验设计和统计方法等课程的教科书作者竟然都是麦迪逊的教授,所以选择统计作为副修;另一方面,我又在麦迪逊的医疗系统研究分析中心担任研究助理,参与由Gustafson教授领导的大型研究团队发展的“综合医疗促进支持系统”,计画的目的是借着提供信息、转介服务、决策支持和社会援助等方式,帮助面对疾病和健康危机的人(如癌症和爱滋病患者)及其亲友取得相关信息、寻求可利用的资源、分析决策,以及社群服务和互相扶持等。我的主要工作是分析系统所蒐集的使用数据和用户填写的问卷调查数据等,并在每周研究团队的定期会议上进行汇报,通过各种可能的分析和数据探索,以证明CHESS的效益。因为我的指导教授当时只是团队中的助理教授,所以我特别卖力分析,生怕工作不保就没有奖学金了。有一天,研究团队的一位成员在会议后告诉我说,我做的工作好像“数据挖掘”,他认为数据挖掘的方法将来可能会超越统计,虽然当时我觉得怎幺可能有一种最近才发展的方法,可以超越已有几百年根基的统计学,但也让我注意到数据挖掘这个研究领域。
1996年我回到新竹“清华大学”任教,即成立“决策分析研究室”,和研究伙伴与学生们包括本书共同作者许嘉裕博士一起投入决策分析、数据挖掘和最佳化的研究和实践工作,并通过产学合作计画作研究,然而却苦无合适的教材训练学生,特别是结合实际案例的课本,因此就持续借着整理产学合作研究成果、撰写期刊论文和指导学生论文之机,準备撰写教科书的基础材料。数据挖掘和大数据分析是方法论,也是实证推导模式,因此必须结合方法发展与实证研究以检验研究效度。决策分析研究室研究团队与台积电、旺宏、台达电、联发科、广达电脑、创意电子、晶元光电、采钰、关东鑫林、茂迪、普生、力晶、世界先进等公司建立双赢的产学合作机制,做到学术研究贡献能够接连获奖,而实际效益能够达到合作厂商产业化的要求,作为更深一层理论研究的基础;更有幸从2005年借调台积电三年,实际套用所发展的分析方法在企业营运中,领导研究室的学生们和工业工程处同仁们一起推动台积电“IE十大建设”并发展相关的分析技术和数字决策系统,提供数位化系统化之决策依据,而从中得到产业导师宝贵的指导和回馈,也累积实战的经验和心得;进而执行台湾“科技部”“IC产业同盟”暨深耕工业基础技术计画,并成立“清华台积电卓越製造中心”,把累积多年的实证及大数据分析技术,推广到半导体供应链上、下游和其他高科技产业,藉此提升产业的决策分析和智慧型製造能力;并通过主办“清华IC学堂”“半导体大数据分析竞赛”及产学合作成果发表研讨会等活动,培养具备跨界创新、团队合作能力的“资料科学家”。因此,本书在编撰过程中一再修改更新,希望一方面能深入介绍数据挖掘与大数据分析的基础方法和工具,另一方面则通过跨领域的实际案例和範例程式,以具体培养结合理论与实务的决策科学家。
非常感谢新竹“清华大学”和元智大学的良好学术研究环境和科学园区的地利人和,使我们可以结合理论与实务,从产业大数据和具体问题的实证中发展适用的方法、检验所学,再进而导向更深一层的研究。随着问题的广度和複杂度以及合作伙伴的阶层和领域而不断成长,这一路走来,虽然整个研究团队一直秉持自强不息、行胜于言的精神努力提升,但也得力于产业先进和合作伙伴们的提携协助和计画执行过程中的指导,因此要感谢的人非常多,希望借着本书的出版能使更多读者从中得到启发和实际的帮助,以造福社会和产业,也算是间接回报所有关心和帮助我们的人。儘管本书经过长期的準备,但完稿阶段所花费的心力远远超过预期,特别感谢专任助理梁婉玲编辑汇总的工作和与出版社的联络,减少本书错误的可能,以及决策分析研究室同学们一起打拚完成各项研究计画,这也是本书各案例的论文均引用完整作者名单的原因;也感谢在“数据挖掘”课程教学中每位互动的学生,让我们得到教学相长和调整教材的回馈建议。本书自2014年在台湾出版以来,引发学术界和产业界的广泛迴响,成为多所大学和各大企业的指定教材。感谢北京清华大学出版社理工分社张秋玲社长和冯昕主任的支持,将全书重新编辑改版,去芜存菁,并增添一章全新章节,使内容更加丰富完整。然而,本书疏漏之处在所难免,盼诸位领导和前辈,不吝赐教,以提升大数据分析和数字决策能力。
简祯富许嘉裕谨识
IC产业同盟,2015冬
目录
第1篇大数据分析与数据挖掘导论
第1章大数据分析与数据挖掘概论3
1.1前言3
1.2大数据分析的套用6
1.3数据挖掘与数字决策8
1.4数据挖掘和大数据分析架构与步骤9
1.4.1问题定义与架构10
1.4.2数据準备11
1.4.3建立挖掘模式11
1.4.4结果解释与评估12
1.5数据挖掘的问题类型13
1.5.1分类13
1.5.2预测13
1.5.3聚类14
1.5.4关联规则14
1.6数据挖掘模式14
1.7结论15
1.8本书架构17
问题与讨论17
第2章数据与数据準备19
2.1数据取得20
2.2大数据分析的基础:Hadoop22
2.2.1Hadoop架构22
2.2.2Hadoop分散式档案系统23
2.2.3MapReduce24
2.3数据类型25
2.4数据尺度26
2.5数据检查28
2.6数据探索与可视化29
2.7数据整合与清理32
2.8数据转换36
2.8.1数据数值转换36
2.8.2数据属性转换37
2.9数据归约38
2.9.1数据维度归约38
2.9.2数据数值归约44
2.10数据分割46
2.11套用实例——半导体厂製造技术员人力资源管理质量提升47
2.11.1案例背景47
2.11.2数据準备47
2.12结论50
问题与讨论51
第2篇数据挖掘方法与实证
第3章关联规则55
3.1关联规则的定义与说明55
3.2关联规则的衡量指针57
3.3关联规则的类型59
3.4关联规则算法60
3.4.1Apriori算法62
3.4.2Partition算法65
3.4.3DHP算法66
3.4.4MSApriori算法68
3.4.5FPGrowth算法70
3.5多维度关联规则75
3.6多阶层关联规则76
3.7关联规则的套用79
3.8R语言与关联规则分析79
3.9套用实例——电力公司配电事故定位的研究83
3.9.1案例背景83
3.9.2数据準备84
3.9.3关联规则推导85
3.10结论88
问题与讨论88
第4章决策树分析93
4.1决策树的建构93
4.1.1数据準备94
4.1.2决策树的分支準则96
4.1.3决策树修剪104
4.1.4规则提取106
4.2决策树的算法107
4.2.1CART108
4.2.2C4.5/C5.0108
4.2.3CHAID109
4.3决策树分类模型评估110
4.4R语言与决策树分析112
4.4.1CART决策树分析112
4.4.2C5.0决策树分析114
4.4.3CHAID决策树分析115
4.5套用实例——建构cDNA生物晶片的数据挖掘模式117
4.5.1案例背景117
4.5.2数据準备117
4.5.3生物晶片数据的决策树构建118
4.5.4规则解释与评估119
4.6结论120
问题与讨论120
第5章人工神经网路127
5.1人工神经网路的基本结构130
5.2网路学习法132
5.3反向传播人工神经网路134
5.3.1网路架构134
5.3.2学习算法136
5.3.3反向传播人工神经网路步骤137
5.3.4反向传播人工神经网路範例138
5.4自组织映射网路139
5.4.1网路架构140
5.4.2学习算法142
5.4.3SOM人工神经网路步骤143
5.4.4自组织映射图网路範例143
5.5自适应共振理论人工神经网路146
5.5.1网路架构147
5.5.2ART1网路算法148
5.5.3适应性共振网路範例150
5.6R语言与人工神经网路152
5.6.1反向传播人工神经网路152
5.6.2自组织映射网路154
5.6.3自适应共振理论人工神经网路155
5.7套用实例——半导体生产周期时间预测与管控158
5.7.1案例简介158
5.7.2数据分群159
5.7.3数据配适与预测160
5.7.4信息整合与敏感度分析161
5.7.5案例小结162
5.8结论163
问题与讨论163
第6章聚类分析165
6.1聚类分析法简介165
6.1.1聚类分析的阶段166
6.1.2相似度的衡量166
6.1.3聚类分析方法169
6.2层次聚类分析法170
6.3划分聚类分析法174
6.3.1K平均法174
6.3.2K中心点法176
6.4以密度为基础的分群算法179
6.5以模式为基础的分群算法181
6.5.1期望最大化算法181
6.5.2自组织映射图网路182
6.6R语言与聚类分析182
6.7套用实例——黄光机台聚类分析184
6.7.1案例简介184
6.7.2验证两阶段分群算法185
6.7.3案例小结187
6.8结论187
问题与讨论188
第7章朴素贝叶斯分类法与贝叶斯网路190
7.1贝叶斯定理190
7.2朴素贝叶斯分类法192
7.3贝叶斯网路196
7.3.1贝叶斯网路的理论基础196
7.3.2贝叶斯网路的不一致性修正201
7.4R语言与贝叶斯分类203
7.5套用实例——电力公司馈线事故定位系统207
7.5.1案例简介与问题架构207
7.5.2数据整理与贝叶斯网路图构建208
7.5.3给定贝叶斯推理网路的参数209
7.5.4验证贝叶斯推理网路210
7.5.5案例小结210
7.6结论211
问题与讨论211
第8章粗糙集理论215
8.1粗糙集理论215
8.2粗糙集理论基本概念215
8.2.1信息系统与决策表216
8.2.2等价关係216
8.2.3近似空间217
8.2.4近似集合的準确率218
8.2.5分类的準确率与属性相依程度219
8.2.6简化219
8.3粗糙集理论产生分类规则222
8.4粗糙集理论与其他分类方法的比较223
8.5R语言与粗糙集理论224
8.5.1决策表与等价关係225
8.5.2近似空间225
8.5.3简化与规则推演226
8.6套用实例──TFTLCD数组事故诊断227
8.6.1案例简介227
8.6.2分析过程227
8.6.3案例小结230
8.7结论231
问题与讨论231
第9章预测与时间数据分析234
9.1回归分析234
9.1.1回归分析基本介绍234
9.1.2参数估计237
9.1.3回归模型解释与评估237
9.1.4多重回归分析239
9.1.5共线性239
9.2逻辑回归240
9.2.1机率与胜算240
9.2.2逻辑回归模式240
9.3时间序列分析242
9.4时间数据的分析步骤243
9.5模式选择与建立244
9.5.1时间序列平滑法246
9.5.2平稳型时间序列247
9.5.3无定向型时间序列251
9.5.4趋势型、季节型与介入事件型时间序列252
9.6阶次选取与参数估计254
9.7模式评估255
9.7.1拟合优度检定255
9.7.2预测误差衡量256
9.8R语言与时间数据分析257
9.9套用实例——半导体光罩需求预测261
9.9.1案例简介与问题架构261
9.9.2数据準备与数据处理261
9.9.3需求波动侦测分析过程262
9.9.4案例小结263
9.10结论264
问题与讨论265
第10章集成学习与支持向量机268
10.1集成学习268
10.1.1Bagging268
10.1.2Boosting269
10.2支持向量机272
10.2.1可区分情况(separablecase)272
10.2.2不可分状况(nonseparablecase)274
10.2.3非线性分类275
10.3R语言与随机森林集成学习模型276
10.3.1利用随机森林进行分类276
10.3.2利用随机森林评估变数重要性277
10.4结论278
问题与讨论278
第3篇数据挖掘进阶运用
第11章商业智慧型281
11.1商业智慧型概述281
11.2套用实例——交通信息预测283
11.3个案研究——人力资源数据挖掘283
11.3.1案例说明283
11.3.2分析过程284
11.3.3案例小结291
11.4套用实例——机票价格预测292
11.5个案研究——产品需求预测292
11.5.1半导体产品需求预测架构292
11.5.2分析过程297
11.5.3案例小结303
11.6结论303
问题与讨论304
第12章製造智慧型305
12.1序言305
12.2WAT参数特徵提取与关联分析307
12.2.1案例说明307
12.2.2分析过程308
12.2.3案例小结312
12.3半导体CP测试数据挖掘与晶圆图样型分类312
12.3.1案例背景312
12.3.2分析过程313
12.3.3案例小结318
12.4低良率事故诊断与製程关联分析318
12.4.1案例说明318
12.4.2分析过程319
12.4.3案例小结323
12.5半导体製造管理的数据挖掘324
12.5.1案例背景324
12.5.2分析过程324
12.5.3案例小结329
12.6结论330
问题与讨论331
第13章数字决策及商业分析与最佳化332
13.1决策信息系统332
13.1.1决策信息系统332
13.1.2决策信息系统的架构333
13.1.3套用实例——电性测试机台维修的决策支持系统334
13.2商业分析与最佳化339
13.2.1商业分析与最佳化339
13.2.2商业分析与最佳化的基本要素340
13.2.3商业分析与最佳化的套用341
13.3数字决策342
13.4结论343
问题与讨论344
参考文献345