种豆资源网

当前位置:首页 > 百科 > 百科综合 / 正文

Web数据管理:概念与技术

(2019-08-23 03:46:53) 百科综合
Web数据管理:概念与技术

Web数据管理:概念与技术

《Web数据管理:概念与技术》是2014年8月21日清华大学出版社出版的图书,作者是孟小峰、刘伟、姜芳艽、李玉坤、王仲远。

本书介绍Web数据管理技术,包括:Web数据抽取(数据型页面和文档型页面的抽取方法、基于视觉信息的抽取方法、包装器生成与维护及实体识别),Web数据集成(查询接口集成、模式匹配、查询转换、资料库採样、资料库大小估计及集成系统实现),数据空间(数据空间的模型、索引、查询及系统实现),以及Web数据管理新技术(Web信息可信性、移动Web搜寻、移动套用集成、大规模知识库构建及社交媒体)。

基本介绍

  • 书名:Web数据管理:概念与技术
  • 作者:孟小峰、刘伟、姜芳艽、李玉坤、王仲远
  • ISBN:9787302370727  
  • 页数:344
  • 定价:69元
  • 出版社:清华大学出版社
  • 出版时间:2014-8-21
  • 装帧:平装
  • 开本:16

前言

Web数据指能够通过Web访问到的所有数据。基于Web数据访问形式不同,Web又分为浅层网路浅层网路(Surface Web)和深层网路深层网路(Deep Web)。如何有效地管理Web上的大量信息,以满足用户不断增长的高质量的信息需求,成为学术界和产业界共同关注并致力于解决的问题。Web数据所呈现的特徵为:海量异构;分布广泛;动态增长;先有数据,后有模式。这使得Web数据无论从数量上还是複杂程度上,都与传统资料库技术所处理的数据显着不同,需要有更先进的技术来管理Web数据。
Web数据管理Web数据管理的主要目的是解决Web上丰富信息资源有效利用的问题,从而大大提高Web套用的开发效率。Web数据管理是指针对特定的主题领域,利用数据抽取和数据集成技术,自动识别Web中与所给主题相关的实体及实体之间的关联,构造面向主题的结构化关联数据,并对这些数据进行有效处理(包括数据质量数据质量、动态演化动态演化、隐私保护隐私保护等),从而为用户提供高质量的信息服务。
传统的资料库技术为传统套用系统的开发提供了有利的支撑,缩短了套用开发周期,降低了系统维护成本。Web数据管理技术与传统的资料库技术一脉相承,其大大降低了Web套用系统开发的难度,同样缩短了套用开发周期,降低了系统维护的代价。诸如学术集成系统学术集成系统、网路舆情系统网路舆情系统、价格比对系统价格比对系统、工作查找系统工作查找系统等套用,利用Web数据管理系统可以方便快捷地加以开发,并实现日常的自动增量维护。
当下大数据浪潮一浪高过一浪,大数据大数据所体现的数据量大(volume)、数据多样性(variety)、实时性强(velocity) 、价值大(value)以及真实性(veracity)的特徵与Web数据的特徵几多相似。因此本书所提出的Web数据管理技术与方法,本质上提供了将多源异构非结构化数据非结构化数据加以结构化管理的途径,进而为解决大数据管理问题提供了有益的尝试。
特别感谢两位在此领域颇有建树的学者百忙中拨冗为本书作序:美国宾汉姆顿纽约州立大学孟卫一教授和清华大学周立柱教授。孟卫一教授在Web数据管理方面是国际上的知名学者,作为元搜寻引擎的开拓者在国际上享有盛誉,自2000年以来多次回国开办Web数据管理方面的讲习班,与本研究团队交流密切,对我们的工作多有指导和帮助,他目前是Web时代信息管理国际会议(WAIM)指导委员会主席。周立柱教授领导的研究团队在大规模Web数据管理和知识提取方面有出色的研究工作,对本实验室的研究工作常年给予指导和帮助,他目前担任中国计算机学会资料库专业委员会主任委员。他们对本书作了整体概括和推介,在此深表谢意。
本书的形成凝聚了中国人民大学网路与移动数据管理实验室集体智慧。特别感谢实验室的博士研究生和硕士研究生,先后有若干届的学生参与到本项目的研究中来,他们是博士生刘伟、姜芳艽、李玉坤、张金增、马如霞、马友忠、李勇,以及硕士生谷明哲、王海燕、胡东东、李宇、李忺、林灿、凌妍妍、王仲远、艾静、赵婧、胡享梅、贾琳琳、张相于、寇玉波、陈威、邓云、童薇、王淼、赵可君等。刘伟(第一部分)、姜芳艽(第二部分)、李玉坤(第三部分)、王仲远(第15、21章)等直接参与写作并在资料收集和文献整理方面做了大量工作。
本书涉及面广,内容丰富,参考文献众多。值得指出的是,在全书的撰写和课题的研究中,儘管投入了大量精力、付出了艰苦努力,但受知识水平所限,书中不当之处在所难免,诚恳希望读者批评指正并不吝赐教。如果有任何建议或意见,可发电子邮件。
孟小峰
2014年3月于北京

目录

第1章绪论
1.1引言
1.2Web数据及特点
1.3Web数据管理及其套用
1.4Web数据抽取
1.5Web数据集成
1.6数据空间
1.7小结
参考文献
第2章XML基础知识
2.1引言
2.2基本概念
2.3XML查询语言
2.4小结
参考文献
第一部分Web数据抽取
第3章Web数据抽取方法概述
3.1引言
3.2Web页面分类
3.3Web数据抽取定义
3.4Web数据抽取方法
3.5Web数据抽取评价标準
3.6小结
参考文献
第4章数据型页面抽取方法
4.1引言
4.2多记录数据型页面的抽取方法
4.3单记录数据型页面抽取方法
4.4小结
参考文献
第5章文档型页面抽取方法
5.1引言
5.2单记录文档型页面抽取方法
5.3多记录文档型页面抽取方法
5.4小结
参考文献
第6章包装器的生成与维护
6.1引言
6.2包装器的生成
6.3包装器的维护
6.4系统结构
6.5小结
参考文献
第7章基于视觉的数据抽取
7.1引言
7.2Web页面上的视觉信息
7.3基于视觉的数据记录抽取
7.4基于视觉的数据项抽取
7.5小结
参考文献
第8章Web实体识别
8.1引言
8.2属性分类
8.3整体解决方案
8.4训练集的自动获取
8.5属性匹配
8.6属性权重的叠代训练
8.7小结
参考文献
第二部分Web数据集成
第9章Web数据集成概述
9.1引言
9.2集成框架
9.3集成查询接口的生成
9.4查询处理
9.5查询结果的处理
9.6小结
参考文献
第10章查询接口集成
10.1引言
10.2查询接口分析与集成
10.3简易查询接口生成与处理
10.4小结
参考文献
第11章不确定模式匹配
11.1引言
11.2模式匹配定义
11.3相似度计算
11.4基于数字实例的模式匹配
11.5模式匹配最佳化
11.6不确定性模式匹配
11.7小结
参考文献
第12章查询转换
12.1引言
12.2查询转换问题
12.3近似查询转换定义
12.4基于动态规则的查询转换
12.5基于谓词的查询转换
12.6基于查询能力的查询转换
12.7小结
参考文献
第13章资料库採样
13.1引言
13.2基本概念
13.3Web资料库图模型
13.4Web资料库採样方法
13.5小结
参考文献
第14章资料库大小估计
14.1引言
14.2一种朴素的基于词频的估算方法
14.3一种粗糙的基于词频的估算方法
14.4小结
参考文献
第15章Web数据集成系统
15.1引言
15.2体系结构
15.3静态集成案例——学术信息集成
15.4动态集成案例——工作信息集成
15.5小结
参考文献
第三部分数据空间
第16章数据空间概述
16.1引言
16.2什幺是数据空间
16.3数据空间的特徵
16.4数据空间与资料库
16.5数据空间与数据集成
16.6数据空间系统
16.7小结
参考文献
第17章数据空间模型
17.1引言
17.2iDM数据模型
17.3核心数据空间
17.4任务空间
17.5小结
参考文献
第18章数据空间索引
18.1引言
18.2倒排索引
18.3FAX索引
18.4UFAX索引
18.5小结
参考文献
第19章数据空间查询处理
19.1引言
19.2查询接口
19.3关键字查询
19.4多属性组合查询
19.5任务查询
19.6小结
参考文献
第20章数据空间系统
20.1引言
20.2实现技术
20.3系统框架
20.4系统功能
20.5其他系统
20.6小结
参考文献
第四部分Web数据管理新技术
第21章Web信息可信性
21.1概述
21.2不同套用场景下的信息可信性
21.3信息可信度评估方法
21.4Web信息可信度评估框架
21.5小结
参考文献
第22章移动Web搜寻
22.1引言
22.2系统框架
22.3地理标记Web资源
22.4查询处理
22.5相关性排名
22.6查询结果可视化
22.7小结
参考文献
第23章移动套用集成
23.1引言
23.2移动套用集成框架
23.3移动套用匹配
23.4关键技术
23.5小结
参考文献
第24章大规模知识库构建
24.1引言
24.2关联数据
24.3知识图谱
24.4小结
参考文献
第25章社交媒体
25.1引言
25.2社交媒体的特点
25.3社交媒体数据带来的挑战
25.4社交媒体中的短文本分析
25.5基于社交媒体的事件发现
25.6社交媒体事件处理框架
25.7小结
参考文献索引

标 签

搜索
随机推荐

Powered By 种豆资源网||