第四节 生物信息学在皮肤病中的应用

生物信息学(bioinformatics)是生命研究领域的一门新兴学科,它的诞生源于20世纪生命科学和计算机科学的快速发展。特别是新的分子生物学、国际互联网和生物医药等多学科的推动,使生物信息学进入到一个极速发展的时期。生物信息学的发展大致可分为三个阶段:最初的前基因组时代,主要集中在生物学数据库的构建,检索工具的开发,以及DNA和蛋白质序列的比对;第二阶段,即基因组时代,主要集中在对人或者其他模式生物的核苷酸序列的测定、分析以及发现新基因;如今,随着人类基因组计划的完成,生物信息学已进入全新的后基因组时代,研究者需要利用所发现的序列信息来研究基因及其蛋白质产物的结构与功能,以及细胞和组织发生、发展、衰老、死亡的生物学机制。目前从基因组→转录组→蛋白质组的大规模、高通量的研究策略已经初步形成。

在皮肤病领域,随着高通量测序的应用,新的生物信息学技术促使皮肤病研究有了突飞猛进的发展。例如在遗传性皮肤病和皮肤肿瘤领域,新的基因序列匹配方法BWA可以在短时间内完成数以万计序列的比对,从而大大提高了关键性致病突变的诊断效率,使遗传性皮肤病和皮肤肿瘤早期分子诊断成为可能。而在感染性皮肤病领域,宏基因组和16S测序产生的大量序列可以通过生物信息软件与细菌和真菌序列数据库进行比对,从而轻易对病原微生物的种类进行鉴定。本节我们将就生物信息学的发展状况和在皮肤病中的应用进行简要的介绍。

一、生物信息学的基础知识

(一)定义

生物信息学是一门新兴的交叉学科,是研究生物信息的采集、管理和分析,并从中提取生物学新知识的科学。其关注的生物信息包括:DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等,涉及生物学、数据和计算机科学等多个领域。

(二)常用生物信息学数据库

常用的生物信息学数据库有以下几种:美国生物技术信息中心(National Center for Biotechnology,NCBI)的核苷酸序列数据库(GenBank)、欧洲生物信息中心(European Bioinformatics Institute,EBI)的核苷酸数据库(Ensembl)、美国加利福尼亚大学(University of California Santa Cruz,UCSC)的基因组数据库;与蛋白质相关的数据库有蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(PIR)、蛋白质结构修饰数据库(RESID)、Entrez的蛋白质三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等;与非编码RNA相关的数据库有microRNA数据库(miRBase)、microRNA靶基因数据库(TarBase和TargetScan)、长链非编码RNA数据库(NONCODE);与疾病相关的数据库包括NCBI疾病基因数据库、基因卡片(Gene Cards)等;与遗传性疾病相关的数据库,如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(GeneDis)等。

(三)常用生物信息学分析工具

常用的生物信息学分析工具根据其使用目的不同可分为以下几种(表5-1):①基因组关联分析软件:包括LDA软件对SNP位点进行基因连锁分析、Phase 2软件进行人类基因单倍型的构建、plink软件进行全基因组关联分析;②Small RNA分析软件:包括miRDeep软件进行已知miRNA的定量和未知miRNA的预测、RNAfold和mfold等RNA二级结构预测软件、miranda等miRNA靶基因预测软件;③RNA-seq分析工具:包括tophat和Star等转录组比对软件、cufflink和featurecount等基因表达量计算软件,以及DESeq和EdgeR等基因表达量比较软件;④基因组重测序分析:包括BWA和Bowtie等序列比对软件、Samtools和GATK等SNP calling软件、ANNOVAR和SNPEff等SNP注释软件。

表5-1 生物信息学研究的内容和主要工具

二、生物信息学在皮肤病学基础研究中的应用

(一)生物信息学在疾病基因组研究中的应用

基因组研究的首要目标是获得生物体的整套遗传密码。有了完整基因组,人类对自身的认识就有了更深入的了解。人类基因组中编码蛋白质区域即外显子部分比例很少,只占1%,但却含有大多数与个体表型有关的功能变异,人类疾病约85%的基因突变位于该区域。因此对人类外显子的序列检测将有利于我们揭示多种遗传性疾病的病因。本章第一节已对遗传性皮肤病的分子诊断技术做了简要的介绍,本节不做重复介绍。下面我们针对基因组重测序后相关生物信息学的分析进行简要的介绍。

众所周知,基因组重测序需要将大量的短序列映射到参考基因组中。传统BLAST、BLAT算法适合于长序列的比对,而对于大规模的短序列比对则显得十分笨拙,不能满足大规模测序研究的需求。鉴于此,2007年,Ruiqiang Li等提出了SOAP算法,使比对性能进一步提高,但需要较多的内存。2009年Ben Langmead等提出了Bowtie算法,该算法基于BWT,使人类基因组的大小可以压缩到2G大小,并在此基础上进行索引,大大缩短了比对时间,为短序列的比对提供了新的思路。同年,Richard Durbi在原有BWT算法基础上又进一步提出了BWA算法,提高了比对的准确性。

除了比对方法,SNP的calling方法近几年也有了比较明显的改善。以往SNP的寻找多采用Samtools方法,该方法通过对测序序列的排序和去冗余,可以迅速发现基因序列中与参考基因组不同的SNP,从而有利于肿瘤和遗传性皮肤病的遗传诊断。而近几年,随着方法的进步,美国的Broad Institute开发了GATK分析软件(The Genome Analysis Toolkit),其在原有Samtools比对算法的基础上进一步参考人类的插入和缺失数据库,最小化插入、缺失对序列比对的影响,从而大大提高SNP calling的准确性。基于以上方法,国外已发展出一系列基于基因组重测序的遗传检测,包括肺癌、大肠癌、遗传性血液病等,给很多患者和家庭带来福音。而国内,特别是皮肤科领域,该方法还处于临床起步阶段,还需要进行大量的研究与临床试验。

最后,随着基因组序列数据的大量增加,完整基因组数据越来越多,使对分子水平的进化关系研究日益深入。研究者可以利用这些资料对诸如生命的起源,生命的进化,遗传密码起源等若干重大生物学问题进行分析。进化关系是利用系统发育分析方法进行推断或评估,其结果用进化树来描述。对于基因组研究来说,通过比较不同生物基因组中同源序列结构的异同,不仅可以构建进化树,加深人们对物种进化的认识;而且还可以发现基因进化中高度保守的区域,有效预测遗传变异位点对基因结构和功能的影响。目前国际核酸数据库ensembl已经开发出SIFT和PolyPhen两个评判标准,来量化数据库中SNP变化对蛋白质功能的影响。

(二)生物信息学在基因表达谱研究中的应用

获得功能基因的表达谱是生命科学在基因组测定完成之后的又一个核心问题,用以揭示生物体在一定时间和空间上的基因种类和表达丰度。目前以转录组芯片、蛋白质组芯片和高通量测序为基础的大规模基因表达谱分析已应用于肿瘤的分子分型、基因功能研究、基因调控网络构建以及药物靶位识别等许多方面。其可以反映基因在某一生命过程中特定时间和空间的作用,是基因的一种表型数据。通过这一数据,研究者可以揭示基因结构与功能的关系,从而发现某些生命现象的本质。在这一过程中,一个重要的问题就是如何评价基因与基因之间的交互作用。这方面生物信息学可以发挥重要作用。

目前蛋白质间的交互作用主要通过GO分析和信号通路富集来评价。GO(gene ontology)是基因功能国际标准分类体系。其可分为分子功能(molecular function),生物过程(biological process)和细胞组成(cellular component)三个部分。GO分析是对差异表达基因按照GO分类,并对分类结果进行基于离散度分布的显著性分析和富集度分析,找出与临床表型有显著联系的、靶向性的基因功能分类,从而发掘功能基因。信号通路是多个蛋白质间相互作用,共同调节细胞功能和代谢活动的过程。而通路分析是通过对差异表达基因按照信号通路的主要公共数据库KEGG和Biocarta来进行分类,对信号通路中的基因进行富集分析,得到与临床表型有显著联系的关键信号通路。它们两者是目前表达谱分析中最常用的方法。

除此之外,基因调控网络也是从海量的生物实验数据中推断基因调控关系的一种方法。其基本过程也是从基因表达谱推断和识别基因网络,包括:从表达数据识别基因调控网络结构;通过随机扰动,分析个体基因对全局动态网络性能的影响得出网络特性;根据大规模的数据,识别基因网络中的调控关系,获得网络参数,推断网络特征;通过建立静态网络,推断基因在稳态下的相互作用机制;推断基因网络的因果结构等。通过以上方法,可以识别和推测基因网络结构、特征和调控关系。从而对相关基因的表达关系进行整体的研究,全面认识基因间的复杂调控关系。迄今为止,研究网络模型的数学方法很多,有离散网络模型、连续性网络模型、确定型网络模型、随机网络模型等。其中,近几年应用最广泛的是贝叶斯网络模型。它的基本原理是将基因的表达值视为随机变量,因此基因间的调控关系可以用受调控基因(子基因)的表达值对调控基因(父基因)的表达值的条件概率来表示,而整个基因调控网络就可以用所有基因的表达值的联合概率来表示。这种方法不仅可以处理离散的基因表达值,也适用于评价连续变量,因此具有更广泛的应用。

(三)生物大分子结构模拟和药物分子设计

生物大分子结构的模拟是研究蛋白质功能和药物分子设计的基础。蛋白质的结构极其复杂,决定蛋白质的功能。要找到这些蛋白质功能的分子基础,必须根据蛋白质结构数据库,进一步分析它们的三维结构。而对于药物设计,研究者不仅需要了解相应的蛋白质三维结构,同时还需要利用海量生物数据库进行药物潜在靶点的定位与设计。基于生物大分子结构及小分子结构的药物设计首先需要从生物数据库搜索和分析药物靶分子活性位点(如抑制某些催化酶或者分子转运蛋白的活性),然后通过模拟受体与配体的相互作用进行全新药物设计。在皮肤病领域,针对黑素瘤的高发突变位点BRAF V600E,KIT基因的L576P或K624,已开发多个抗体类药物,如维罗菲尼、达拉菲尼和伊马替尼。它们对于含有突变的晚期黑素瘤有明显的疗效。目前活性位点分析实用性较强的软件主要有DRID、GREEN、HSITE、LUDI、Leapfrog等,其中LUDI应用最为广泛。