遗传序列资料库是为了更好地保存和处理生物序列数据,而将其存储到大型计算机的资料库中。根据资料库中数据内容的不同,现有的生物序列资料库包括基因序列资料库、蛋白质资料库等。
序列资料库的注释信息包括两部分,一部分由电脑程式经过序列分析由电脑程式生成,另一部分则依靠生物学家通过查阅文献资料而获得。
基本介绍
- 中文名:遗传序列资料库
- 外文名:Genetic Databank
- 简称:GDB
- 套用学科:生物学、基础医学、计算机科学
- 产生原因:保存和处理生物序列数据
- 序列资料库:分子生物信息资料库中的资料库
简介
产生背景
随着后基因组时代的到来,人们开始对于基因组及其成套产物的功能进行研究。在生命体内几乎所有的基因组产物都是通过与其它各种分子发生相互作用而行使其功能的。
为了更好地保存和处理如此海量的生物序列数据,我们毫无疑问的将这些数据存储到大型计算机的资料库中。目前,国际上的公共资料库有近百种,其中最着名的核酸和蛋白质序列资料库有几十种。据统计,这些资料库中的数据量正在以指数速率增长,平均每年翻一番。
有了这些资料库,人类将更方便地共享这些生物序列,更方便对这些数据进行分析处理。因为,到20世纪90年代,Internet技术已经相当成熟,人们可以方便的通过网路共享资源。因此,这些大型的资料库每天都进行更新,并通过网路进行数据同步。这样全世界的生物信息学研究人员获取实验数据就变得很方便了。另外,这些大型资料库伺服器大多提供序列分析和基因检索等序列分析服务。研究人员可以通过这些资料库提供的先进的技术和工具对生物序列进行分析。
分类
根据资料库中数据内容的不同,现有的生物序列资料库有如下几类:
基因序列资料库,包括最着名的GenBank、EMBL、DDBJl等。这些资料库每天更新,相互交换数据。目前,它们可以提供5万多个物种的数百亿硷基对的基因序列。此外,它们还提供序列分析服务,支持线上和离线的序列分析。
蛋白质资料库,其中最着名的是国际蛋白质资料库PSD和瑞士的资料库SWISS—PROT。它们仅仅提供蛋白质序列数据和一些蛋白质序列搜寻服务,如基于文本的互动式检索,标準序列相似性搜寻,结合序列相似性、注释信息和蛋白质家族信息的高级搜寻等。
功能资料库,如KEGG,它是系统分析基因功能,联繫基因组信息和功能信息的知识库。它存储了基因组序列和更高级的功能信息,包括图解的细胞生化过程以及关于化学物质、酶分子、酶反应等信息。KEGG还提供了Java的图形工具来访问基因组图谱,比较基因组图谱和表达图谱,以及其他序列、图形比较等。
其它生物资料库,包括RNA资料库、线粒体资料库、基因表达资料库、密码子资料库、蛋白质三维结构资料库和霉一代谢资料库等等。
当前问题
序列资料库的繁琐冗长增加了科学家们要使用这些资源时的困难 某个生物学家要获取一个关于果蝇的核酸序列,从EMBL核酸资料库中得到36个不同的核酸序列记录。他们中没有一个考虑当今的知识,例如,刊登遗传因子捆绑位置。一些是突变株的等位基因,一些是不同的野生型等位基因,但是对于它们之间的差异投有完整的注释。可怜的生物学家只想得到这个基因的决定性序列。当然,这不是真正的目的,然而却非常实用。对第二代序列资料库有明显的需求,生物学的内容以较有条理的方式连线到序列上,而冗长的序列被合併(附有特别的注释)。这些都应是以最初的序列资料库为基础,被具有必要的专门技术的机构来处理。一 些遗传资料库正着手此类工程。
序列资料库
国际核酸序列数据文库(通常称为基因库),是一个联合产物,包括日本的DNA资料库”,欧洲生物信息协会(EBI )及NCBI 。它是一个从群体中接受核酸序列数据并且使其成为随意使用的数据仓库 儘管他的名字“资料库”还含有从核酸序列的“概念翻译”获得的蛋白质序列。为了达到记载每个公开的核酸序列的目的,
这个资料库作为试验性数据与为最终完成而竞争的储藏库。这些数据是庞杂的,它们随着对材料来源的重视程度(如与cDNA相对应的基因组)、预期的质量(如已经完成的相对单一的序列)、序列注释的範围与关係到生物学目标的序列预期完成情况(如相对于部分的基因或基因组是完整的)的变化而变化。
虽然有资料库工作人员来检验数据的完整性及明显的错误,数据的质量还是与呈送者有直接关係。作为一种结论,资料库中有许多错误,许多序列记录或者被错误地标记、污损,或者被不完全地或错误地注释,或者包含排列的错误。另外,资料库是非常冗长的,在这种情景下,来之同种生物体的相同序列可能有多次重複,简单地归咎于最初科技报告的繁琐。一个重要的“附加值”服务是优劣分类等级制的负担。
一系列序列资料库通过合併序列解决冗长的问题,这些合併序列与一个完全可以从相同基因推断出来的序列充分相似。目前,这些资料库仅对人类序列有用,在其它方面的使用则刚刚起步对于拥有完整的或巨大的序列的生物体基因组,除了被储存于主要的核酸序列资料库外,还常常被储存于特定的生物资料库中。对此,一个可用的信息来源是完整的基因组排列计画目录,由各个大学保存的, 这项资源已被连线到公共资料库上。
所有大型排序中心都保存他们自己的资料库,这些资料库经由它们的本页可以进入访问。有五个特别有用的资料库—由于被研究的生物体不同一他们是基因组研究协会(TIGR) ,华盛顿大学基因组序列中心 ,Sanger 中心、 Oklahoma大学基因组技术中心及Stanford基因组资源处 。
几类特别的序列资料库也是可以利用的。它们中有一些是特殊的序列等级,如关于ribosonud基因的Ribosomal资料库计画,HIV与亲缘病毒的HIV序列资料库 , 关于免疫遗传分子的[ IMGT]资料库 ;还有独具特色的TRANSFAC、EPI)、REBASE等等。
蛋白质资料库IPID
IPID的系统架构分为三层:
(1)数据仓库层:用于存储来自25个资料库的各种与蛋白质相关的经以三个基本相互作用元件标準化后的相互作用数据、7个不同的序列库(包括以CFGP格式存储的10个基因组数据)、4个Dommn资料库和3个Chemical资料库;
(2)网路界面层;用于方便地浏览存放于数据仓库层中的各种与蛋白质相关的相互作用及基本相互作用元件数据,并提供了InterXlTandem,用于鉴定用户所输入的质谱中的蛋白质并显示IPID中所含的与该蛋白质相关的各种相互作用数据。
IPID的系统架构

(3)Favorite层:是一个用于存放和分析用户从数据仓库层採集的各种所感兴趣的与蛋白质相关的相互作用或相互作用元件数据的个性化虚拟空间,共提供27个分析工具。