数据处理是指使用电子计算机对大量的原始数据或资料进行录入、编辑、汇总、计算、分析、预测、存储管理等的操作过程。数据的形式可以是数字、文字、图像或声音等。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取出相对有价值、有意义的数据。数据处理贯穿于社会生产和社会生活的各个领域。
数据管理是人们对数据的分类、组织、编码、存储、查询和维护等活动,是数据处理中的关键环节。其目的在于充分发挥数据的作用。随着计算机技术的发展,数据管理经历了人工管理、档案管理、资料库管理3个发展阶段。
基本介绍
- 中文名:数据处理管理
- 外文名:Data processing management
- 内容:数据处理、数据管理
- 基本操作1:数据的录入、编辑、汇总、计算
- 基本操作2:数据的分析、预测、存储管理
- 基本操作3 :数据的分类、组织、编码、存储等
数据处理
数据处理是指使用电子计算机对大量的原始数据或资料进行录入、编辑、汇总、计算、分析、预测、存储管理等的操作过程。
基本内容
数据处理的基本内容包括:
(1)对所需数据进行收集整理,按一定的格式输入,并保存在存储介质上;
(2)在输入数据过程中,对原始数据进行检查、逻辑判断、查错、修改和简单的算术运算;
(3)对录入数据进行分类、合併、逻辑校正、插入、更新、排序检索等操作;
(4)对数据汇总、分析、制表列印、存档等;
(5)建立信息资料库,便于今后使用。
特点
数据处理在很多场合都有套用,如考务安排、成绩统计、选票统计、投标、会计业务处理、人口普查、超市管理、银行存款和取款等,其特点如下:
(1)数据量大;
(2)算法简单,主要是加、减运算、排序、分类及汇总;
(3)数据要绝对正确;
(4)事先的工作要準备充分;
(5)牵涉面广,经手的人多;
(6)有一定的时间性。
处理方式
数据处理方式是指计算机实现数据处理过程的方法。
(1)单级数据处理。
单级数据处理又可以分为批处理方式和在线上实时处理两种。
批处理方式用于对数据处理的时间回响要求不是很高,数据处理点比较分散,无法实现联网或投资不允许等情况,它定时将收集过来的数据输入计算机,并进行相应的处理,这种处理方式投资少,稳定性好,但在数据汇总方面具有滞后性大等缺点。批处理方式适用于以下几种情况:
①固定周期的数据处理;
②需要对大量的来自不同方面的数据进行综合处理;
③需要将一段时间内积累的数据进行处理;
④无法进行在线上实时处理时。
某些数据处理系统要时刻关注其汇总结果,必须要採用实时处理系统。实时处理系统能随时反映数据处理系统的瞬间状态。实时处理系统是当数据一旦发生,就要立刻存入计算机,并做出相应的处理。如银行的存款和取款、大型且重要的选票统计。实现实时处理系统的关键是输入系统。实时处理系统必须要採用Internet技术,要保证网路畅通,系统稳定性高,一旦系统瘫痪,将会严重影响工作。实时处理系统一般适用于以下几种情况:
①需要迅速反应的数据处理;
②负荷易产生波动的数据处理;
③数据收集费用较高的数据处理。
(2)分级数据综合处理。
分级数据综合处理是根据一定的管理体制,自上而下进行数据汇总工作。由于某些数据处理系统牵涉的面广、数据量大,又要考虑时间,因此某些大型的数据处理要採用分级综合处理,如全国人口统计、全国职称外语考试等。分级数据处理可分为集中统一超级汇总处理和逐步分级综合处理。
集中统一超级汇总处理是指将所有各基层收集过来的原始数据都集中到最高一级数据处理中心进行数据录入、编辑、修改、汇总。这种处理方式的优点是数据的计算机处理工作点集中,数据的正确性和录入质量有可靠的保障;缺点是由于原始数据是以纸质方式来记录,给运输、验收等带来困难,若原始资料有问题,情况返回也很不方便。当前,计算机已经非常普及,计算机技术人员也不缺乏,因此数据收集、录入均可放在基层完成。经录入的数据,经过编辑、校对可传送到最高一级数据处理中心,最后进行统计汇总和分析工作。
如果大量的基础数据统一传输到某一台计算机进行最后的数据汇总,可能在数据存储、运算时间及软体平台上会很难实现。因此,必须要做到各级统计部门遵照国家统计局的统一部署,统一软体,按计画严格执行,将分层的统计结果自下而上按级上报,最后得到最终的统计结果。逐步分级综合处理是由基层进行数据的收集、录入、编辑校对,根据上级的要求进行统一汇总,然后将统计汇总结果上报上一级数据处理中心。上一级的数据处理中心将所属的基层统计汇总数据进行第二次统计汇总,依次类推,最后由最高一级数据处理中心得出最终结果。
数据处理系统
在数据处理中,计算机硬体设备是一个必要条件,它是快速处理数据的保障。为了能够满足大型的数据处理,应该採用区域网路或多级区域网路形式进行全国性的数据处理和统计。一般的数据处理可採用集中式数据存储方式进行,它适合于原始资料比较集中、数据量适中的数据处理,其结构管理比较方便,容易控制。大部分数据的处理都可以採用这种网路结构。对于数据量很大、原始资料分散、工作点多的情况(如人口普查),就採用多级区域网路结构方式。
数据处理系统的软体平台,主要是作业系统和资料库。作业系统和资料库的选择主要根据具体的数据处理项目的大小、安全性要求等,还要考虑用户对所选软体的熟悉程度和现有硬体设备条件限制以及软体的价格等方面的因素,用户可以根据自己的需要选择合适的作业系统和资料库系统。
数据管理
数据管理是人们对数据的分类、组织、编码、存储、查询和维护等活动,是数据处理中的关键环节。根据数据管理所提供的数据独立性、数据冗余度、数据共享性、数据间相互联繫、数据安全性、数据完整性和数据存取方式等水平的高低,通常将数据管理技术划分为人工管理、档案管理、资料库管理3个发展阶段。
人工管理阶段
(1)不能长期保存数据。在20世纪50年代中期之前,计算机一般在关于信息的研究机构里才能拥有,当时由于存储设备(纸带、磁带)的容量空间有限,都是在做实验的时候暂存实验数据,做完实验就把数据结果打在纸带上或者磁带上带走,所以一般不需要将数据长期保存。
(2)数据并不是由专门的套用软体来管理,而是由使用数据的应用程式自己来管理。作为程式设计师,在编写软体时既要设计程式逻辑结构,又要设计物理结构以及数据的存取方式。
(3)数据不能共享。在人工管理阶段,可以说数据是面向应用程式的,由于每一个应用程式都是独立的,一组数据只能对应一个程式,即使要使用的数据已经在其他程式中存在,但是程式间的数据是不能共享的,因此程式与程式之间有大量的数据冗余。
(4)数据不具有独立性。应用程式中只要发生改变,数据的逻辑结构或物理结构就相应的发生变化,因而程式设计师要修改程式就必须都要做出相应的修改,给程式设计师的工作带来了很多负担。
档案系统阶段
20世纪50年代后期到60年代中期,计算机开始套用于数据管理方面。此时,计算机的存储设备也不再是磁带和卡片了,硬体方面已经有了磁碟、磁鼓等可以直接存取的存储设备了。软体方面,作业系统中已经有了专门的数据管理软体,一般称为档案系统,档案系统一般由三部分组成:与档案管理有关的软体、被管理的档案以及实施档案管理所需的数据结构。档案系统阶段存储数据就是以档案的形式来存储,由作业系统统一管理。档案系统阶段也是资料库发展的初级阶段,使用档案系统存储、管理数据具有以下4个特点:
(1)数据可以长期保存。有了大容量的磁碟作为存储设备,计算机开始被用来处理大量的数据并存储数据。
(2)有简单的数据管理功能。档案的逻辑结构和物理结构脱钩,程式和数据分离,是数据和程式有了一定的独立性,减少了程式设计师的工作量。
(3)数据共享能力差。由于每一个档案都是独立的,当需要用到相同的数据时,必须建立各自的档案,数据还是无法共享,也会造成大量的数据冗余。
(4)数据不具有独立性。在此阶段数据仍然不具有独立性,当数据的结构发生变化时,也必须修改应用程式,修改档案的结构定义;而应用程式的改变也将改变数据的结构。
资料库系统阶段
20世纪60年代后期以来,计算机管理的对象规模越来越大,套用範围又越来越广泛,数据量急剧增长,同时多种套用、多种语言互相覆盖地共享数据集合的要求越来越强烈,资料库技术便应运而生,出现了统一管理数据的专门软体系统——资料库管理系统。
资料库是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年以前,随着信息技术和市场的发展,特别是20世纪90年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。资料库有很多种类型,从简单的存储有各种数据的表格到能够进行海量数据存储的大型资料库系统都在各个方面得到了广泛的套用。
用资料库系统来管理数据比档案系统具有明显的优点,从档案系统到资料库系统,标誌着资料库管理技术的飞跃。此阶段的特点是:
(1)数据结构化。在描述数据时不仅要描述数据本身,还要描述数据之间的联繫,数据结构是资料库的主要特徵之一,也是资料库系统与档案系统的本质区别。
(2)数据共享性高、冗余少且容易扩充。数据不再是针对某一个套用,而是面向整个系统,数据可被多个用户和多个套用共享使用,而且容易增加新的套用,所以数据的共享性高且容易扩充。数据共享可以大大减少数据冗余。
(3)数据独立性高。
(4)数据由DBMS统一管理和控制。资料库为多个套用和应用程式所共享,对数据的存取往往是并发的,即多个用户可以同时存取资料库中的数据,甚至可以同时存放资料库中的同一个数据。
空间数据的处理与管理
空间数据有多种来源,不同的数据源其输入方法不同,不论採用什幺方法输入数据,都会有一些问题,如输入过程中出现意外的错误,输入数据与使用格式不一致,各种来源数据的比例尺、投影不统一,图幅间不匹配等。因此,必须对空间数据进行处理和管理,才能得到纯净、统一的数据档案,使存储的空间数据符合规範、标準的要求,满足使用和分析的需要。
图形数据的输入
图形数据的输入过程实际上是图形数位化处理的过程。对于不同来源的空间数据,很难找到一种统一而简单的输入方法,只能从下述几种普遍方法中选用。
(1)手工键盘输入;
(2)手扶跟蹤数位化仪输入;
(3)自动扫描数位化输入;
(4)解析测图仪法空间数据输入;
(5)全球定位系统,它可以正确获得空间位置及高程数据,并可以同计算机连线,直接输入;
(6)已有数字形式空间数据的输入,这种方式用来接收已是数位化形式的数据。
属性数据的输入
属性数据即为空间实体的特徵数据。一般对一个空间实体及其属性赋予一个或多个关键字进行连线。属性数据一般採用键盘输入。当数据量较大时,属性数据与空间数据分别输入并分别存储。把属性数据首先输入一个顺序档案,经编辑、检查无误后转存到资料库的相应档案或表格中,这时属性数据输入的一种常用方法。
GIS数据的编辑
数据编辑的目的在于消除数据输入过程中引入的错误或误差。它们包括空间点位不正确、变形,空间点位和线段的丢失或重複,线段过长或过短,面积不封闭,区域中心识别码的遗漏,结点代码和区域代码不能符合拓扑的一致性,属性的分类错误、错误编码或误输入等等。
在GIS数据编辑前,应进行多工序的数据检核,检验方法有:
(1)目标检核,将图形实体显示在萤幕上,检查一些明显的错误,如丢失了线段、图斑不闭合、线段过长等。
(2)机器检核,主要是对数位化数据的拓扑一致性进行逻辑检核,把弧段连线成多边形以进行数位化限差的检查等。
(3)图形重叠比较,即按与原图相同的比例尺用数据输出模组把输入的图形及其相应的属性绘到透明材料上,然后与原图精确套叠,在透光桌上仔细地观察和比较,查找遗漏、位置错误等,一併做好相应的标记。
(4)属性数据检核,常用且简单的方法是用印表机输出属性档案,逐行检查;另一种方法是编制检核程式,用程式扫描数据档案,看有无文字代替了数字或数字超过了允许範围等粗差。