攻克人类基因组图谱“留白”

“我是谁?我从哪里来?要到哪里去?”面对这个终极哲学难题,人们或许能从科学家的发现中找到遗传规律与基因信息层面的解答。

前不久,《科学》杂志连发6篇论文,公布了人类基因组测序的最新重要成果。国际科学团队端粒到端粒(T2T)联盟,通过新的技术绘制出全球第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。这是人类第一次完成每个核苷酸水平堪称完整的人类基因组测序,为了解人类基因组的全部基因和组织元件提供了完整的参照,为科学、全面、彻底认知人类的个体和群体演变的遗传学本质和规律铺平了道路。

“假如把人类基因组比作一辆结构复杂的汽车,那么,20多年前完成的人类基因组草图就已经具备了汽车的基本配件和功能,新发现的序列只是让这辆汽车的配备更完善,功能更强大。没有它,汽车也能跑;有了它,汽车的性能更好,也更完美了。”中国科学院北京基因组研究所研究员于军接受科普时报记者专访时表示,人类第一次完成每个核苷酸水平堪称完整的人类基因组测序,为了解人类基因组的全部基因和组织元件提供了完整的参照,为科学、全面、彻底认知人类的个体和群体演变的遗传学本质和规律铺平了道路。

基因组学一个关键里程碑

新序列补齐了人类基因组最后一块拼图,标志着基因组学领域的一个关键里程碑。

新序列揭示了关于着丝粒周围区域的前所未见的细节。这将大大增加人们对染色体的了解,尤其是着丝粒及其作用。因为该区域对于了解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要。

同时,新序列揭示了以前未被发现的节段重复,即在基因组中重复的长DNA片段。在人类基因组中的20000个基因中,大约950个起源于节段重复。这些人类特有的节段重复是新基因的储存库,这些基因会在发育中的大脑中驱动更多神经元的形成,并增强额叶皮质突触的连接性——可能与人类特有的高级思维、推理、逻辑和语言功能有关。

而更准确的5条染色体臂图谱的呈现,或帮助科学家开辟新的研究方向,有助于回答有关染色体如何正确分离和分裂的基本生物学问题。


“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就,提供了人类基因蓝图的第一个全面视图。”美国国立卫生研究院下属的国家人类基因组研究所(NHGRI)所长、医学博士埃里克·格林说,“这些基础信息将推进许多正在进行的努力,帮助我们了解人类基因组的细节,这反过来又将为人类疾病的基因研究提供支持。”

除了完成组装拼图的医学研究意义之外,它还有助于回答:我们的基因组中包含什么使我们成为了人类?与其他猿类相比,原始基因组中的一些空白基因现在被认为对于帮助人类制造更大的大脑至关重要。着丝粒的变异性也可能为人类祖先如何进化提供新证据。

现在,科学家能够随时间变化跟踪这些新的基因组区域,从而能够对一代又一代、不同起源的人或物种进行更严格的比较。

例如,艾希勒实验室的研究生哈维·吉塔特对与人类前额叶皮质扩张相关的基因家族TBC1D3的分析显示,在灵长类动物进化的不同点上发生了反复和独立的扩张。最近一次发生在约200万到260万年前,大概是人属出现的时候。令人惊讶的是,人类的TBC1D3基因家族在一部分样本中显示出显著的大规模结构变异。

研究人员在其论文中解释说,不同的人有着截然不同的TBC1D3基因家族的互补和排列方式。对于一个被认为对大脑功能如此重要的基因来说,这是令人意想不到的。科学家们还发现了LPA基因复杂结构的多样性,这种脂蛋白基因部分的变异性是血液中血脂水平异常导致心血管疾病的最重要的遗传风险因素。

研究人员还研究了SMN基因(一种运动神经元基因),其突变与某些神经肌肉疾病有关。对脊髓性肌萎缩区域(5号染色体上最难完成测序的区域之一)进行更好的序列识别,从而有助于确定疾病风险并进一步治疗,因为重复基因SMN2是最有效基因疗法之一的靶点。

此外,许多疾病与着丝粒中的结构重复有关,因此,新序列有助于科学家研究与基因相关的疾病。

众所周知,着丝粒在细胞繁殖时在DNA复制中发挥作用,如果显著改变它们在染色体中的位置,就可以产生全新的物种。当某些异染色质着丝粒基因过度表达时,癌细胞会疯狂分裂;细胞分裂和细胞之间遗传物质分配出错也可能导致产前发育的异常,如唐氏综合症或罗伯逊易位,而对着丝粒基因组的全面了解可能为治疗这些疾病打开新大门。

基于这些和其他发现,科学家们指出,新的参考基因组“揭示了对神经发育和人类疾病很重要的基因中人类遗传变异的前所未有的水平”。

治疗癌症和其他疾病的新希望

新人类基因组序列是否会给癌症,以及更多的疾病治疗带来福音,挽救更多人的性命呢?答案是肯定的。

新人类基因组序列的大部分新内容来自神秘的着丝粒,它是将两条染色体连接在一起的密集的DNA束,在细胞分裂中起着关键作用。参与这项工作的美国加利福尼亚大学伯克利分校博士后阿尔特莫斯指出,约90%的基因新序列来自染色体的着丝粒,着丝粒内部及周围的新DNA序列约占整个基因组的6.2%。

着丝粒的作用在于,它的大型蛋白质复合物牢牢抓住染色体,如此细胞核内的其他组织就可以将染色体对分开。但是,一旦这一过程出错,染色体分离也会出错,随后一系列后果也会出现。如果这种情况在细胞的减数分裂时发生,可能会发生染色体异常,导致自然流产或先天性疾病。而且,如果这种情况发生在体细胞中,可能会导致癌症。

显然,对着丝粒及其周围碱基对序列的精准检测,以及对其他原癌基因的研究,是未来预防和治疗癌症的基础,治疗癌症的药物和疗法也必然建立在这些基础之上,因此更多的癌症病人和其他疾病患者都会得益于新人类基因组序列。

另一方面,对5条近着丝粒染色体的短臂区域的测序结果显示,这些短臂区域中包含了编码核糖体RNA的基因的多个拷贝,一共400个。染色体短臂区域的变异水平也比较高,并有大量的重复序列。这表明,短臂区域很可能是基因演化的热点区域,因为停留在那里的基因拷贝可以自由变异并获得新的功能。因此,研究这一区域的基因既可能发现很多功能基因,也能进一步解开癌症和其他疾病的谜团。

很多专家认为,完成某一个人类个体的基因组并不是“人类基因组计划”的最终目标和结果。

目前,T2T联盟已与人类泛基因组参考联盟合作,计划对几百个个体进行T2T的全基因组测序,以建立来自世界各地,代表不同人群的数百乃至上千个完整的群体参照基因组,建立尽可能完整的代表人类群体多样性的系列参照基因组。

据介绍,基因测序是基因编辑的基础。2015年4月,中山大学生命科学学院副教授黄军就及其同事完成了全球首次对人类胚胎进行的遗传性致病基因的修复实验,引发全球科学界和社会的关注。

2015年4月,中山大学生命科学学院副教授黄军就及其同事完成了全球首次对人类胚胎进行的遗传性致病基因的修复实验。新华社发

在实验中,黄军就及其同事成功修复了人类胚胎中导致β型地中海贫血的基因。黄军就在公开报道中表示,人类的很多疾病与基因遗传突变有关,比如地中海贫血、遗传性眼疾、癌症、老年痴呆症等。运用基因编辑技术,人类未来可以“修正”突变的基因,根治这些疾病。

中国人基因组测序宜早不宜迟

近年来“长读长”测序技术的发展,极大地加速了解码生命的进程,不仅测序时间大为缩短,测序成本也呈数量级降低。

于军介绍,我国近20年来基本上依赖国外的基因测序设备,但从2015年开始拥有了第一款真正的国产基因测序仪,目前我国自主研发的二代和三代测序仪也在不断地进入市场。在应用方面,我国也已经做到了与全球领先企业并驾齐驱。

于军认为,完成某一个人类个体的基因组并不是“人类基因组计划”的最终目标和结果。目前,T2T联盟已与人类泛基因组参考联盟合作,计划对几百个个体进行T2T的全基因组测序,以建立来自世界各地,代表不同人群的数百乃至上千个完整的群体参照基因组,建立尽可能完整的代表人类群体多样性的系列参照基因组。

于军表示,遗传保证了生命的延续,而突变产生了不同的物种以及人与人之间的差异。不同族群有着各自独特的遗传背景,对不同疾病的易感性也可能不一样。只有真正了解基因与疾病的关系,才能根据每个个体的基因进行疾病预测和检测,及早做出预防方案或进行针对性治疗。

“中国人的基因组与现有的完整白人基因组序列仍然存在较大差异,希望我国尽快运用和发展三代、四代测序技术,早日测出完整的‘中华民族代表基因组序列’。”于军说,“国人的基因组系列完成后,科学家们可以通过比对分析个体DNA的碱基序列差异,开展更深入的基因组学和遗传学研究,为预防疾病、研制新药以及精准医疗提供个性化、智能化的数据。”