《数据工程——处理、分析与服务》是2013年清华大学出版社出版的图书,作者是岳昆。本书介绍了数据处理篇、数据分析篇和数据服务篇三部分内容。
基本介绍
- 书名:数据工程——处理、分析与服务
- 作者:岳昆
- ISBN:9787302339762
- 定价:53元
- 出版社:清华大学出版社
- 出版时间:2013-12-20
- 装帧:平装
内容简介
本书以“数据—知识—服务”为主线,以数据处理、分析和服务的代表性方法与技术为重点。数据处理篇介绍结构化、非结构化和半结构化数据的存储、查询和最佳化方法;数据分析篇介绍数据挖掘、知识发现和数据仓库的经典算法;数据服务篇介绍Web服务和数据密集型计算技术。本书既考虑了数据工程技术在基础、经典和前沿三方面内容的系统性,也考虑了数据工程学科在数据、知识和服务三方面内容的完整性,介绍每部分内容的代表性技术;在每个知识点的阐述中,注重思路和技术框架的介绍、技术内涵和理念的传递,旨在为读者进一步学习和研究与数据相关的学科的方法和技术提供一些参考。
本书内容的学习,需要读者具有电脑程式设计和关係资料库查询处理的基础知识,以及使用资料库管理系统的基本能力,可作为资料库相关学科研究和开发人员的参考书,也可作为计算机科学与技术学科各专业研究生、高年级本科生相关课程的教材。
前言
随着数据规模的不断增大、数据採集手段的日益多样化,数据管理技术迅速发展,从传统的关係型数据到文本数据、半结构化数据和Web数据,从传统的关係资料库管理到面向大数据的分散式档案系统和数据中心,从经典的查询处理和最佳化到数据分析和知识发现,从数据集成到套用集成和服务计算,从集中式架构到分散式并行模型和数据密集型计算等。
人们从不同的角度来描述资料库这一概念,有不同的定义。例如,资料库是若干记录的集合;为解决特定的任务,以一定的组织方式存储在一起的相关的数据的集合等。然而,随着数据管理技术的发展,人们对资料库的认识和理解也不断深入。从学科领域的角度看,资料库学科探讨工程化和套用驱动背景下的数据管理理论、方法和支撑技术,是包括建模、管理和分析等方面的方法理念和支撑技术的平台和载体。因此,资料库逐渐向数据科学这一新兴学科演化发展,其研究逐渐从数据处理这一基础领域扩展到了数据分析和数据服务。
数据工程,是指面向不同计算平台和套用环境,使用信息系统设计、开发和评价的工程化技术和方法。以工程化作为基本出发点的数据处理、分析和套用方法与技术,是计算机科学与技术学科的重要内容、核心与趋势,具有广泛的套用和良好的前景。目前,数据工程已成为计算机相关学科中研究、开发和教学的基本理念和必不可少的内容。随着数据在不同套用中地位的逐渐提升、数据格式的日益多样化,数据工程领域的前沿层出不穷、内涵日益丰富、热点不断演变,“数据(Data)—知识(Knowledge)—服务(Service)”是目前数据科学与工程领域研究和套用的趋势和主线,基于数据的网路信息服务已成为目前信息技术的核心和未来发展的方向;大数据是目前国内外各个领域所关注的焦点,数据工程是其中的重点问题。因此,从工程化的角度理解数据科学,数据工程既包括数据处理技术,也包括数据分析技术和数据服务技术;既包括查询处理和最佳化、事务和工作流管理和资料库架构等基础内容,也包括数据挖掘与知识发现、时空数据、元数据和社会数据分析等经典问题,另外还包括机率数据、云计算和大数据管理等前沿课题。
一方面,技术发展迅速、涉及面较广,使得数据处理、数据分析和数据服务的学习通常可能既涉及数据存储和查询的传统技术,又涉及数据挖掘和知识发现的经典技术,以及面向网路信息服务的新技术。另一方面,不同层次的读者,对数据工程相关知识的需求也有很大差异。数据工程本身的特点决定了它并不存在通用的学习模式、面面俱到的文献和一成不变的学习方法;技术内涵和方法理念,是希望通过学习获得的最有价值的内容。因此,综合考虑数据工程技术内容和学科领域内涵的完整性和系统性,本书以“数据—知识—服务”为主线,以数据处理、分析和服务的代表性方法与技术为重点,包括关係资料库的设计与查询最佳化,信息检索与Web搜寻引擎、XML数据管理、数据挖掘与数据仓库、Web服务、数据密集型计算等;在每个知识点的阐述中,注重思路和技术框架的介绍,并不陷入技术的细节。通过本书内容的学习,使读者对数据处理、数据分析和数据服务的工程化方法,有较为系统和完整的理解。以这些内容作为数据工程技术的代表,旨在传递概念、方法和技术内涵与理念,为读者进一步学习和研究面向数据科学的方法和技术提供一些参考。
本书由数据处理篇、数据分析篇和数据服务篇三部分构成。
数据处理篇的主要内容包括第1~3章。第1章介绍关係资料库查询最佳化的常用技术,主要包括资料库设计与连线操作,基于索引、关係模式反规範化、物化视图和查询重写的最佳化策略。第2章介绍信息检索,主要包括信息检索模型、文本信息检索、Web搜寻引擎关键技术以及信息检索评价。第3章介绍XML数据管理,主要包括XML语法、数据模型、解析、存储、索引和查询处理技术以及XML资料库性能评测。
数据分析篇的主要内容包括第4、5章。第4章介绍数据挖掘,主要包括数据挖掘和知识发现的概念,数据清理、数据分类与聚类分析技术以及数据挖掘算法评价。第5章介绍数据仓库,主要包括数据仓库的概念、架构和主要数据分析操作。
数据服务篇主要包括第6、7章。第6章介绍Web服务的基本概念、架构、标準协定以及Web服务质量、Web服务发现与组合和Web服务安全的支撑技术。第7章介绍数据密集型计算,包括数据密集型计算的基本概念、数据密集型计算的支撑技术、支持海量数据管理的计算平台、海量数据处理和海量数据分析技术。
在成书过程中得到国家自然科学基金项目、教育部博士点基金专项课题、云南省中青年学术与技术带头人后备人才培养计画、云南大学计算机科学与技术国家级特色专业建设项目、云南大学研究生精品课程建设项目的资助。在本书编着过程中,华东师範大学周傲英教授、云南大学刘惟一教授和张学杰教授,对本书的内容、选材和出版提出了许多中肯的意见,并给予了大力的支持。此外,云南大学信息学院和研究生院以及云南大学数据与知识工程课题组的研究生,给予了很多有益的帮助,在此一併表示衷心的感谢。由于作者水平有限,对方法和技术的理解及观点可能不够全面,难免有错误和疏漏之处,恳请各位专家和读者批评指正。
作者
2013年6月
目录
数据处理篇
第1章关係资料库查询最佳化3
1.1资料库设计4
1.1.1资料库设计概述4
1.1.2ER模型5
1.1.3关係模型13
1.1.4从ER模型到关係模型19
1.1.5规範化简介24
1.2面向複杂套用的数据查询26
1.2.1连线查询、嵌套查询和集合查询26
1.2.2视图、存储过程和触发器29
1.3查询最佳化33
1.3.1基于索引的查询最佳化33
1.3.2基于资料库模式反规範化和视图物化的查询最佳化52
1.3.3基于数据查询语句重写的查询最佳化58
第2章信息检索65
2.1信息检索概述66
2.1.1信息检索的概念和基本原理66
2.1.2信息检索的相关学科和研究内容68
2.1.3信息检索的发展史70
2.2信息检索模型71
2.2.1信息检索系统的形式表示71
2.2.2布尔模型72
2.2.3向量空间模型73
2.2.4经典机率模型76
2.3文本信息检索78
2.3.1辞彙的频率与数量分布规律79
2.3.2文本信息预处理80
2.3.3文本信息的倒排索引81
2.3.4布尔检索85
2.3.5相关反馈和提问式扩展86
2.3.6Lucene:一个开源的全文信息检索引擎88
2.4Web信息检索89
2.4.1Web信息搜寻的概念90
2.4.2Web搜寻引擎的工作原理91
2.4.3Web搜寻引擎的关键技术92
2.5信息检索评价指标98
2.5.1信息检索评价的基本步骤99
2.5.2单个查询的评价指标100
2.5.3多个查询的评价指标102
2.5.4面向用户的评价指标102
2.5.5搜寻引擎性能评价指标103
2.5.6TREC评测104
2.1信息检索概述66
2.1.1信息检索的概念和基本原理66
2.1.2信息检索的相关学科和研究内容68
2.1.3信息检索的发展史70
2.2信息检索模型71
2.2.1信息检索系统的形式表示71
2.2.2布尔模型72
2.2.3向量空间模型73
2.2.4经典机率模型76
2.3文本信息检索78
2.3.1辞彙的频率与数量分布规律79
2.3.2文本信息预处理80
2.3.3文本信息的倒排索引81
2.3.4布尔检索85
2.3.5相关反馈和提问式扩展86
2.3.6Lucene:一个开源的全文信息检索引擎88
2.4Web信息检索89
2.4.1Web信息搜寻的概念90
2.4.2Web搜寻引擎的工作原理91
2.4.3Web搜寻引擎的关键技术92
2.5信息检索评价指标98
2.5.1信息检索评价的基本步骤99
2.5.2单个查询的评价指标100
2.5.3多个查询的评价指标102
2.5.4面向用户的评价指标102
2.5.5搜寻引擎性能评价指标103
2.5.6TREC评测104
第3章XML数据管理107
3.1XML语法107
3.1.1XML简介107
3.1.2XML文档结构109
3.1.3XPath和XQuery查询语言118
3.2XML数据模型125
3.2.1半结构化数据125
3.2.2XML数据模型127
3.3XML数据处理132
3.3.1XML解析132
3.3.2XML资料库系统概述135
3.3.3XML存储137
3.3.4XML数据索引146
3.3.5XML查询处理152
3.4XML资料库性能评测156
3.4.1性能基準156
3.4.2评测数据集158数据分析篇
第4章数据挖掘163
4.1数据挖掘概述164
4.1.1数据挖掘的内涵和任务164
4.1.2数据挖掘的过程166
4.2数据清理169
4.2.1数据质量管理的基本思想169
4.2.2数据清理流程171
4.2.3数据清理方法172
4.3数据分析178
4.3.1数据分类分析178
4.3.2数据聚类分析189
4.3.3算法评价201
3.1XML语法107
3.1.1XML简介107
3.1.2XML文档结构109
3.1.3XPath和XQuery查询语言118
3.2XML数据模型125
3.2.1半结构化数据125
3.2.2XML数据模型127
3.3XML数据处理132
3.3.1XML解析132
3.3.2XML资料库系统概述135
3.3.3XML存储137
3.3.4XML数据索引146
3.3.5XML查询处理152
3.4XML资料库性能评测156
3.4.1性能基準156
3.4.2评测数据集158数据分析篇
第4章数据挖掘163
4.1数据挖掘概述164
4.1.1数据挖掘的内涵和任务164
4.1.2数据挖掘的过程166
4.2数据清理169
4.2.1数据质量管理的基本思想169
4.2.2数据清理流程171
4.2.3数据清理方法172
4.3数据分析178
4.3.1数据分类分析178
4.3.2数据聚类分析189
4.3.3算法评价201
第5章数据仓库205
5.1数据仓库概述206
5.1.1数据仓库的基本概念206
5.1.2从操作型系统到信息型系统207
5.2数据仓库体系结构208
5.2.1一般的两层体系结构208
5.2.2独立数据集市的数据仓库体系结构209
5.2.3依赖数据集市和操作型数据存储体系结构
——三层结构210
5.2.4逻辑数据集市和实时数据仓库体系结构211
5.3在线上分析处理213
5.3.1OLAP的概念和基本操作213
5.3.2OLAP的体系结构217数据服务篇
第6章Web服务231
6.1Web服务的基本概念232
6.1.1企业套用集成与电子商务232
6.1.2Web服务技术架构235
6.2Web服务的标準协定241
6.2.1WSDL241
6.2.2SOAP246
6.2.3UDDI254
6.3Web服务质量263
6.3.1Web服务质量属性264
6.3.2Web服务质量度量266
6.3.3Web服务质量保证概述272
6.4Web服务发现与组合274
6.4.1基于类型的Web服务发现与组合274
6.4.2基于QoS的Web服务发现与组合276
6.4.3基于工作流的Web服务发现与组合277
6.4.4基于AI规划的Web服务发现与组合282
6.4.5Web服务组合标準规範284
6.5Web服务安全289
6.5.1Web服务安全问题289
6.5.2Web服务安全标準和模型291
6.5.3Web服务安全支撑技术303
5.1数据仓库概述206
5.1.1数据仓库的基本概念206
5.1.2从操作型系统到信息型系统207
5.2数据仓库体系结构208
5.2.1一般的两层体系结构208
5.2.2独立数据集市的数据仓库体系结构209
5.2.3依赖数据集市和操作型数据存储体系结构
——三层结构210
5.2.4逻辑数据集市和实时数据仓库体系结构211
5.3在线上分析处理213
5.3.1OLAP的概念和基本操作213
5.3.2OLAP的体系结构217数据服务篇
第6章Web服务231
6.1Web服务的基本概念232
6.1.1企业套用集成与电子商务232
6.1.2Web服务技术架构235
6.2Web服务的标準协定241
6.2.1WSDL241
6.2.2SOAP246
6.2.3UDDI254
6.3Web服务质量263
6.3.1Web服务质量属性264
6.3.2Web服务质量度量266
6.3.3Web服务质量保证概述272
6.4Web服务发现与组合274
6.4.1基于类型的Web服务发现与组合274
6.4.2基于QoS的Web服务发现与组合276
6.4.3基于工作流的Web服务发现与组合277
6.4.4基于AI规划的Web服务发现与组合282
6.4.5Web服务组合标準规範284
6.5Web服务安全289
6.5.1Web服务安全问题289
6.5.2Web服务安全标準和模型291
6.5.3Web服务安全支撑技术303
第7章数据密集型计算307
7.1数据密集型计算的基本概念308
7.1.1背景与挑战308
7.1.2数据密集型计算的含义312
7.2数据密集型计算的支撑技术312
7.2.1Google数据密集型计算技术312
7.2.2Yahoo!数据密集型计算技术323
7.3海量数据管理332
7.3.1支持海量数据管理的计算平台333
7.3.2海量数据处理337
7.3.3海量数据分析346
7.1数据密集型计算的基本概念308
7.1.1背景与挑战308
7.1.2数据密集型计算的含义312
7.2数据密集型计算的支撑技术312
7.2.1Google数据密集型计算技术312
7.2.2Yahoo!数据密集型计算技术323
7.3海量数据管理332
7.3.1支持海量数据管理的计算平台333
7.3.2海量数据处理337
7.3.3海量数据分析346
参考文献365