第三节 基因变异/突变与解析

遗传病是指由于遗传物质(DNA)质或量的持久性改变(包括碱基组成、排列顺序改变)所罹患的疾病。遗传物质改变是遗传病的主要特征。并非所有遗传物质的改变或变异(variant)都会导致遗传性疾病。遗传物质的变异没有导致明显可见的表型(或目前暂未观察到),这种变异称为多态(polymorphism);遗传物质的变异通过基因表达等导致生物遗传特征的变化,这种变异称为突变(mutation)。

(一)变异/突变的分类

1.根据遗传性质分类

DNA变异可分为生殖细胞变异和体细胞变异,发生在生殖细胞的DNA变异会通过遗传传递给后代,发生在体细胞的DNA变异一般不会传递给后代。

2.根据DNA变异序列长短分类

根据DNA变异的大小,可人为分为不同水平的3种类型。

(1)染色体变异(chromosome variant):

也可称基因组变异(genomic mutation),指染色体结构没有改变但是染色体数量发生改变的变异,包括整倍体变异和非整倍体变异。

(2)亚染色体变异(subchromosomal variant):

指染色体的部分区域发生变异,其变异DNA序列长度通常超过100kb,变异类型包括拷贝数变异(copy number variation,CNV)、结构重排(structural rearrangement)等。

(3)基因变异:

变异DNA序列长度在100kb以内的变异,包括DNA序列的替换(substitution)、缺失(deletion/del)、插入(insertion/ins)、重复(duplication/dup)等变化,如单核苷酸变异(single nucleotide variant,SNV)、短串联重复变异(STR)等。

此外,还可以根据不同DNA变异长度下所导致人类疾病的特征分成染色体水平、基因组水平及基因水平,分别导致染色体病(chromosomal disease)、基因组病(genomic disorder)、单基因病(monogenic disease)。

3.根据对DNA序列结构的改变分类

(1)替换:

一个核苷酸被另一个核苷酸替代,该变异类型也可称为单核苷酸变异。

(2)缺失:

一个或多个核苷酸被移除。

(3)重复:

一个或多个核苷酸拷贝直接插入原始序列的下游。

(4)插入:

序列中插入一个或多个核苷酸,且插入序列并非上游序列拷贝。

(5)插入/缺失(indel):

一个或多个核苷酸被其他核苷酸替代,但并不是发生替换、倒置和转置。

(6)转置(conversion/con):

一种特殊类型的缺失/插入,其中替代原始序列的核苷酸序列是来自基因组中另一个序列拷贝。

(7)倒置(inversion/inv):

与原始序列反向互补的新的核苷酸序列(大于1个核苷酸)替换原始序列。

4.根据对蛋白质结构的改变分类

(1)同义变异(synonymous variant):

由于遗传密码子存在简并性,碱基替换后密码子虽然发生改变,但不会影响所编码的氨基酸。

(2)错义变异(missense variant):

编码某种氨基酸的密码子经碱基替换成另一种氨基酸的密码子,导致多肽链的氨基酸序列发生改变,从而使多肽链可能丧失原有功能。

(3)无义变异(nonsense variant):

终止密码子也称为无义密码子(包括UAA、UAG、UGA),由于碱基的替换使对应密码子变为终止密码子,导致多肽链合成提前终止变短,从而使多肽链功能破坏。

(4)终止密码子变异(stop codon variant):

与无义变异对应,碱基替换后改变了终止密码子,使其变成具有氨基酸编码功能的密码子,导致多肽链异常地持续合成进而长度延长形成功能异常的蛋白质分子。

(5)起始密码子变异(start codon variant):

氨基酸起始密码子(AUG)碱基改变,导致多肽链无法正常开始从而使多肽链功能破坏。

(6)移码变异(frame shift variant):

指DNA分子由于碱基的缺失或插入,引起三联体密码子的阅读方式改变,导致变异下游多肽链序列完全改变。

(7)剪接位点变异(splice site variant):

也叫剪切位点变异,包括经典剪接位点变异和非经典剪接位点变异。剪接是指DNA转录成RNA后,去掉内含子并将外显子连接起来的过程,其中内含子和外显子交界区域,尤其是前后第一位或第二位,称为经典剪接位点,此类位置突变大多会影响剪接过程而使多肽链翻译异常;其他位置也有可能影响剪接,但造成影响的概率没有经典剪接位点高,称非经典剪接位点。

起始密码子变异、无义变异、移码变异、剪切位点变异等常引起蛋白功能显著丧失,统称为功能丧失变异(loss of function,LoF)。

5.动态突变(dynamic mutation)

指基因组内一些简单串联重复序列[如(CAG)n、(CCG)n等]的重复次数在减数分裂或体细胞有丝分裂过程中发生不稳定改变,重复次数可随着世代的传递而呈递增的累加突变效应,与发病年龄、病情严重程度相关。动态突变可发生于基因的任何位置,如外显子区(exon)、内含子区(intron)、基因侧翼序列(5′UTR和3′UTR)。动态突变也是多核苷酸重复序列异常扩展突变(polynucleotide repeat expansion mutation)的一种形式。

(二)变异的命名

导致人类遗传病的变异种类繁多,变异的准确命名将有助于临床应用及学术交流。目前学术界较公认的命名规则是由人类基因组变异学会(Human Genome Variation Society,HGVS)推荐的基因变异命名方法。

变异命名的完整格式为“参考序列(reference sequences):具体描述”。例如,NM_004006.2:c.4375C>T。参考序列放在前面是因为每个变异都是针对某个参照序列而言,本例中“NM_004006.2”即为描述该变异时所参照的序列编号(mRNA序列)。变异的具体描述可从不同水平(DNA、RNA或蛋白质等)进行,通常用前缀表明其参考序列类型:“g.”表示基因组序列,“c.”表示cDNA序列,“m.”表示线粒体DNA序列,“r.”表示RNA序列,“p.”表示蛋白序列,如表1-3-1、表1-3-2。关于变异命名指南,人类基因组变异学会根据需求在不断更新,具体的变异命名方法建议查阅相关网站。

(三)变异的解析

通过对个体基因组的全部编码基因进行序列测定,寻找影响编码蛋白功能的变异位点的新一代测序技术(next-generation sequencing,NGS)成为近十多年来主流测序方法。NGS技术[主要包括全基因组测序技术(whole genome sequencing,WGS)、全外显子组测序技术(whole exome sequencing,WES)、目标区域捕获测序技术(targeted region sequencing,TRS)]的出现彻底改变了临床基因诊断格局,与此同时产生的海量测序数据也使临床基因检测结果及意义的明确变得更加复杂。为了迎接NGS背景下序列变异解读的巨大挑战,2015年,美国医学遗传学和基因组学学会(American College of Medical Genetics and Genomics,ACMG)联合分子病理学协会(Association of Molecular Pathology,AMP)共同制定了孟德尔遗传疾病的序列变异解析指南,以实现基因组信息临床评估的标准化。我国学者也根据我国的实际情况,制定了人类孟德尔遗传疾病基因组中序列变异的解析与临床规范。

表1-3-1 常见符号及其意义

表1-3-2 描述变异的特殊符号及意义

1.序列变异解析的基本规则

根据2015年ACMGAMP发布的序列变异解析指南,指导人类孟德尔遗传疾病序列变异的主要原则为:①变异证据分层原则;②变异证据累加原则;③变异判定五级分类原则。这些原则构成了序列变异解析的基本规则,ACMG序列变异解析工作组负责对这些规则进行持续更新,提高使用过程中的准确性。

(1)变异证据分层原则:

ACMG-AMP发布的序列变异解析指南对变异分类的证据提出了详细的标准。根据该指南,每一个变异都可以进行包括人群频率信息、共分离信息、新生变异(de novo variant)信息、功能研究信息、计算机预测信息、等位信息及其他信息等7个层级信息的分析,以获取判定变异临床意义的“证据”;其中变异“致病性”的证据力度可分为非常强(pathogenic very strong,PVS)、强(pathogenic strong,PS)、中等(pathogenic moderate,PM)和支持(pathogenic supporting,PP)4个级别,每个级别又进一步细分(PVS1、PS1~4、PM1~6及PP1~5);变异“良性”的证据力度可分为独立(benign stand-alone,BA)、强(benign strong,BS)和支持(benign supporting,BP)3个级别,每个级别也有进一步细分(BA1、BS1~4及BP1~7),初步确定了共28条变异证据标准,如表1-3-3。自指南发布后,序列变异解析工作组已陆续对PVS1、PS2、PS3、PM3、PM6、PP5、BA1、BS3、BP6等变异证据标准进行了更新和推荐。

(2)变异证据累加与变异判定五级分类原则:

通过分析获得序列变异的所有致病性或良性证据后,根据证据的累加原则进行变异判定。累加之后的“证据群”再根据五级分类原则进行变异判定:累加后的证据根据一定的规则可判定为致病的(pathogenic)、可能致病的(likely pathogenic)、意义未明的(uncertain significance)、可能良性的(likely benign)和良性的(benign)。ACMG-AMP序列变异解析指南对变异证据累加与变异判定五级分类也制定了具体的规则,如表1-3-4。

表1-3-3 序列变异致病性和良性证据分层

续表

续表

注:PVS,致病性非常强;PS,致病性强;PM,致病性中度;PP,致病性支持;LoF,失去功能;ESP,外显子测序计划;1 000G,千人基因组计划;ExAC,外显子组集合联合;BA,良性独立(证据);BS,良性强(证据);BP,良性支持(证据);该数字仅用于分类,不代表强弱;/,暂无更新推荐。

表1-3-4 结合致病性或良性证据分类序列变异的规则

2.序列变异解析的流程

(1)详细的临床资料收集:

详细、准确的临床资料收集是进行临床基因诊断及疾病病理研究的基础,完善的临床资料可有效降低临床诊断和基因诊断误诊率,有助于变异解析的后续分析。纳入临床资料主要包括主诉、现病史、家族史、近亲结婚史、体格检查、生化检验、量表评分及影像学等方面。

(2)疾病的遗传因素判定:

根据临床资料及临床诊断,判断疾病是否由遗传因素导致,是否呈孟德尔遗传。

(3)合理选择NGS测序技术:

确定遗传因素在疾病发病中具有主要作用后,应用合理的NGS检测方案、选择适合发掘该疾病遗传结构变异(genetic architecture)的NGS测序技术及数据分析方法,是提高基因诊断成功率的先决条件。

基因组序列变异形式可简单归为以下类型:①单核苷酸变异(SNV);②插入/缺失(indel)变异;③短串联重复变异(STR)(附表);④拷贝数变异(CNV);⑤结构变异(structural variant,SV)等。

基因组序列变异位置有以下情况:①变异位于基因组外显子区;②变异位于基因组基因间区(intergenic region);③变异位于基因组内含子区;④变异位于基因组启动子区及UTR区。如对于基因组外显子区域的SNV、indel等变异可选择WES,对于基因组SNV、indel、CNV等变异可选择WGS,对于STR、SV等变异,可选择三代测序技术(third-generation sequencing,TGS)。如图1-3-1。

图1-3-1 不同变异类型NGS技术的应用

TRS,目标区域捕获测序;WES,全外显子组测序;WGS,全基因组测序;TGS,三代测序;+,可行;-,不可行;+/-,可行但应用受限;SNV,单核苷酸变异,图中SNV表示与参考序列相比,碱基A替换为T;indel,插入/缺失,图中indel表示与参考序列相比,ATC碱基缺失并插入GAT碱基;STR,短串联重复,图中STR表示与参考序列相比,CAG重复次数由26次变为60次;CNV,拷贝数变异,图中CNV表示与参考序列相比,某基因的外显子1缺失并且外显子2发生重复;SV,结构变异,图中SV表示与参考序列相比,基因1与基因2相互易位,图中染色体变异表示与参考序列相比,染色体22q11.2结构缺失;红色方框,外显子;蓝色方框,基因;橙色方框,染色体结构。

(4)序列变异解析:

测序数据经过严格规范的质控管理及标准的生物信息学分析(包含变异提取、变异人群频率分析及变异计算机预测软件分析等)后可获得致病变异候选清单,对清单内变异进行进一步变异证据获取,按序列变异解析的基本规则进行变异解读,必要时数据可反复分析。最后,对最终筛选的变异,还需要在家系中进行共分离验证;对于已知致病基因的新生变异,可应用功能学实验来补充遗传学及生物信息学的分析。

(夏 昆 胡正茂)