复杂疾病往往存在多种中间表型、其遗传模式难以确定,虽然表现出一定的家族聚集倾向性,但并不完全符合孟德尔遗传规律的一类疾病。心血管疾病、原发性高血压、非胰岛素依赖型糖尿病、肥胖及多数恶性肿瘤等众多疾病皆属复杂疾病,是由环境因素与遗传因素共同作用所致,具有明显的遗传异质性和表型复杂性的特征,且在人群中的发病率高,严重影响人们的身心健康。全世界开展大量复杂疾病易感基因的研究,鉴定了许多疾病或表型相关的变异,为人类疾病和表型研究奠定坚实的遗传学基础,但这些变异位点往往大部分位于非编码区,机制不明确。那么如何使用多组学技术开展人类疾病研究,解析致病机制?我们将从以下的几个设计方案为大家一窥其研究的套路模式。
一、基因组学方案
利用高通量测序平台(以二代illumina、BGI、T7平台和三代PacBio HiFi、ONT平台为主)对基因组进行测序(主要包括Gene Panel、WES、WGS),在个体或群体中全面挖掘基因组的各类遗传变异(SNV、Indel、CNV、SV),为筛选疾病相关的变异信息,致病及易感基因,解析复杂疾病及遗传机制提供重要信息。
案例
Sparse whole-genome sequencing identifies two loci for major depressive disorder
研究背景:
关于抑郁症不同亚种的分类与界定的讨论已经进行了一百余年。而抑郁症病因的异质性正是探索其基因基础的主要障碍。抑郁症的发病受环境因素的影响很大,同时不同亚型、甚至不同病情程度的抑郁症可能存在致病机制差异,这些因素都导致其关联分析难以展开。事实上,之前许多针对抑郁症关联基因的研究都失败了,其中包括使用超过9000对病例/对照样本进行的GWAS研究。
材料方法:
6000名中国汉族女性患者,6000名中国汉族女性对照组(筛选后分别保留5303名和5337名)。LC-WGS(low-coverage whole-genome sequencing,平均深度为1.7 X)。
研究结果:
研究者通过对个体全基因组测序,鉴定个体的SNP位点,将SNP变异位点纳入到GWAS分析,最终在全基因组层面上鉴定到了与重度抑郁障碍显著关联两个位点,都位于10号染色体上,一个靠近SIRT1基因,一个在LHPP基因的内含子中。该研究的这些相关基因,将能帮助开发出真正具有针对性的抑郁症治疗药物,也将协助抑郁症的诊断和预测的基因手段。
基于基因组层面进行疾病研究,已经发现了诸多新的遗传致病位点或疾病风险位点。但是疾病的发生发展是一个复杂的过程,基因变异、表观遗传的改变、基因表达水平的异常等诸多因素都有可能发挥作用。随着测序技术和分析方法的不断完善,多组学的方法逐渐走入科学研究人员的视线,它不仅仅对疾病机理研究、确定治疗靶点起到推动作用,也为疾病基础科学提供了新的思路。
二、多组学之基因组、转录组、
表观ATAC-seq方案
通过全基因组测序技术,可以鉴定与疾病相关的遗传变异信息,但是大多数的变异位点往往位于非编码区,对于疾病的调控机制仍然不清楚。ATAC-seq技术用于研究细胞内处于开放状态的染色质区域,可以结合基因表达数据,解析非编码区的遗传变异(SNV、InDel、CNV、SV等)对染色质开放状态的影响,进而影响基因调控区的转录因子结合,从而调控了靶基因的表达水平。
案例
The Open Chromatin Landscape of Non–Small Cell Lung Carcinoma
研究背景:
肺癌是全球癌症相关死亡的主要原因之一。非小细胞肺癌(NSCLC)约占肺癌病例的85%,其中肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)是两种主要的组织学类型。最近的基因组测序工作已经在NSCLC中鉴定出数百万个体细胞突变,并发现了driver mutation,这种疾病的表观遗传研究越来越重要。
材料方法:
所有患者都接受了疾病诊断和肿瘤化疗治疗。样本为肺癌患者肿瘤组织和远端正常肺组织。肿瘤组织标本纯度至少80%以上。
50例原发性NSCLC患者样本,进行ATAC-seq(61.72∼243.83 M reads/样本,平均为103.47 M reads/样本),WGS(30X-50X)和RNA-seq数据(80.6∼165.6 M/样本,平均为95.63M/样本)测序。并将somatic CNV/germline SNV与染色质可及性以及基因表达进行关联分析。
研究结果:
(1)通过对肿瘤和相邻组织样本的全基因组测序(WGS)鉴定了大量的突变信息,结果发现大部分体细胞SNV和InDel位于基因间区域和内含子区,而只有一小部分体细胞SNV位于外显子区。
(2)通过对肿瘤样本进行ATAC-seq测序分析,解析了NSCLC的染色质开放的特征,结果表明,NSCLC样品中含有样品中更多的异质开放染色质区域,并且少数peak的比例与病理类型(LUSC样本中的少数peak往往比肺腺癌样本更多)和较高的肿瘤分期显著相关。同时,鉴定了与癌症发展相关的大量的染色质区域。
(3)通过ATAC-seq与RNA-seq联合分析,来研究开放的染色质宽峰(Broad open chromatin peaks)和相关基因表达。结果发现宽开放染色质峰与非小细胞肺癌中基因的失调有关。
(4)通过WGS鉴定的CNV与RNA-seq关联分析,来解析基因调控区的体细胞CNV对目标基因的表达影响,结果表明,与体细胞CNV片段不相关的基因相比,与体细胞CNV扩增相关的大多数基因显示较高的表达水平,而与体细胞CNV缺失相关的大多数基因显示较低的表达水平。
(5)通过将CNV与ATAC-seq联合分析,来研究NSCLC中体细胞CNV和开放染色质峰之间的关系,结果表明,ATAC-seq信号的强度与体细胞CNV区域的拷贝数呈正相关,这表明调节元件与它们所位于的基因组区域一起扩增或缺失。进一步评估含有开放染色质峰的体细胞CNV片段(sCOP)对表达的影响,结果表明与sCOP扩增相关的大多数基因表现出明显更高的表达水平,而与sCOP缺失相关的大多数基因表现出更低的表达水平。发现在大多数情况下,CNV会影响基因的拷贝数及其调控元件。
总之,通过整合基因组序列、ATAC-seq和转录组数据,可以直接研究调控元件上基因组序列的变化如何影响NSCLC的基因调控网络。该研究表明ATAC-seq峰强度和基因表达水平都与它们所位于的CNV区域的拷贝数成正相关,表明活性调节元件可能与CNV一起增减。CNV可能通过影响基因剂量或基因调控元件来改变基因表达,在99.7%的病例中,CNV片段携带基因体及其调控元件。
TIPS
(1)更多多组学方案:肠道微生物、基因组+转录组+代谢、基因组+Hi-C+转录组等方案,敬请期待下期复杂疾病研究常见解决方案总结(二);
(2)更多复杂遗传疾病致病机制的基因组研究方案,个性化定制研究方案,可以联系您所在的菲沙区域经理,或者拨打公司电话027-87224696;
看完这篇文章,是不是发现疾病研究有其规律可循?是不是也想摩拳擦掌跃跃欲试呢?澳门金威尼斯游戏集先进的生信分析计算平台,全方位为您助力疾病相关研究,期望与各领域的专家合作,制定最优的解决方案,提供快速、准确、专业的服务,共同迎接生命科学研究中的挑战。
参考文献:
1.Cai N, Bigdeli TB, Kretzschmar W, et al. Sparse whole-genome sequencing identifies two loci for major depressive disorder. Nature. 523 (2015): 588-591.
2.Wang, Zhoufeng, et al. The Open Chromatin Landscape of Non-small Cell Lung Carcinoma. Cancer research, 2019, canres. 3663.2018.