遗传序列资料库

简介

产生背景

随着后基因组时代的到来，人们开始对于基因组及其成套产物的功能进行研究。在生命体内几乎所有的基因组产物都是通过与其它各种分子发生相互作用而行使其功能的。

为了更好地保存和处理如此海量的生物序列数据，我们毫无疑问的将这些数据存储到大型计算机的资料库中。目前，国际上的公共资料库有近百种，其中最着名的核酸和蛋白质序列资料库有几十种。据统计，这些资料库中的数据量正在以指数速率增长，平均每年翻一番。

有了这些资料库，人类将更方便地共享这些生物序列，更方便对这些数据进行分析处理。因为，到20世纪90年代，Internet技术已经相当成熟，人们可以方便的通过网路共享资源。因此，这些大型的资料库每天都进行更新，并通过网路进行数据同步。这样全世界的生物信息学研究人员获取实验数据就变得很方便了。另外，这些大型资料库伺服器大多提供序列分析和基因检索等序列分析服务。研究人员可以通过这些资料库提供的先进的技术和工具对生物序列进行分析。

分类

根据资料库中数据内容的不同，现有的生物序列资料库有如下几类：

基因序列资料库，包括最着名的GenBank、EMBL、DDBJl等。这些资料库每天更新，相互交换数据。目前，它们可以提供5万多个物种的数百亿硷基对的基因序列。此外，它们还提供序列分析服务，支持线上和离线的序列分析。

蛋白质资料库，其中最着名的是国际蛋白质资料库PSD和瑞士的资料库SWISS—PROT。它们仅仅提供蛋白质序列数据和一些蛋白质序列搜寻服务，如基于文本的互动式检索，标準序列相似性搜寻，结合序列相似性、注释信息和蛋白质家族信息的高级搜寻等。

功能资料库，如KEGG，它是系统分析基因功能，联繫基因组信息和功能信息的知识库。它存储了基因组序列和更高级的功能信息，包括图解的细胞生化过程以及关于化学物质、酶分子、酶反应等信息。KEGG还提供了Java的图形工具来访问基因组图谱，比较基因组图谱和表达图谱，以及其他序列、图形比较等。

其它生物资料库，包括RNA资料库、线粒体资料库、基因表达资料库、密码子资料库、蛋白质三维结构资料库和霉一代谢资料库等等。

当前问题

序列资料库的繁琐冗长增加了科学家们要使用这些资源时的困难某个生物学家要获取一个关于果蝇的核酸序列，从EMBL核酸资料库中得到36个不同的核酸序列记录。他们中没有一个考虑当今的知识，例如，刊登遗传因子捆绑位置。一些是突变株的等位基因，一些是不同的野生型等位基因，但是对于它们之间的差异投有完整的注释。可怜的生物学家只想得到这个基因的决定性序列。当然，这不是真正的目的，然而却非常实用。对第二代序列资料库有明显的需求，生物学的内容以较有条理的方式连线到序列上，而冗长的序列被合併(附有特别的注释)。这些都应是以最初的序列资料库为基础，被具有必要的专门技术的机构来处理。一些遗传资料库正着手此类工程。

遗传序列资料库

遗传序列资料库

基本介绍

简介

产生背景

分类

当前问题

序列资料库

蛋白质资料库IPID