全基因组相关性研究（GWAS）识别原发性硬化性胆管炎易感基因座

2011-04-04 MedSci原创 MedSci原创

MedSci注：GWAS是近年来研究热点，目前已有数千篇文献发表。本例主要是帮助读者了解，如何应用GWAS方法进行临床研究。　　近期，一篇斯堪的那维亚/德国原发性硬化性胆管炎（PSC）全基因组相关性研究（GWAS），挪威Folseraas等报告了一项对该研究数据进行的扩展分析结果，显示通过对其他相关的阈值下信号进行复制，能够识别出几个新的PSC易感基因，尽管多数基因可作为PSC自身免疫易感性证

MedSci注：GWAS是近年来研究热点，目前已有数千篇文献发表。本例主要是帮助读者了解，如何应用GWAS方法进行临床研究。

　　近期，一篇斯堪的那维亚/德国原发性硬化性胆管炎（PSC）全基因组相关性研究（GWAS），挪威Folseraas等报告了一项对该研究数据进行的扩展分析结果，显示通过对其他相关的阈值下信号进行复制，能够识别出几个新的PSC易感基因，尽管多数基因可作为PSC自身免疫易感性证据的补充，但FUT2的结果有可能提示其他发病机制的存在。

　　研究者在715例PSC患者和2962例对照者中，检测了基因型、相关单核苷酸多态性（SNP）（n=2466182）的关联。并在进一步分析中排除了已知的危险基因座。研究者根据GWAS中其他免疫相关疾病的结果（http://www.genome.gov/26525384）以及在相关区域内的功能型候选基因，对包括1147个PSC病例和2336名对照者的独立病例/对照组中的共52个SNP进行了基因型分析，随后采用 Cochrane-Mantel-Haenszel检验进行关联分析。使用加权Z评分综合最初GWAS的结果和复制的结果。

　　在复制分析中，8个SNP达到了微弱的显著性（表1）。在FUT2基因中检出了新的强关联性（P-_联合= 1.1×10^-5和4.3×10^-6），该基因编码1种与上皮多糖包被（epithelial glycocalyx）合成相关的酶，上皮多糖包被影响黏膜感染的易感性。此外，在存在如下免疫相关基因的基因座中，也检测到了新的关联：CLEC16A（P-_联合=2.7×10^-5）、UBASH3A（P-_联合=0.00024）和SH2B3（P-_联合=0.00033）。在GGT基因也有微弱的显著关联（P-_联合=0.0029），需要进一步验证。IL2/IL21/KIAA1109（P-_联合=1.7×10^-6）和REL（P-_联合=0.00015）中的相关性，证实了既往在这些基因座中的所见。

补充知识：全基因组相关性研究（GWAS）

随着DNA测序技术的飞速发展，测定某个物种的全基因组早已不是什么难事。从1995年第一个细菌基因组——流感嗜血杆菌全基因组序列发表算起，包括酵母，线虫，拟南芥，小鼠，人类，水稻，杨树等在内的各种不同演化等级的模式生物的基因组被相继测定并发表。然而，面对这一连串狂飙突进式的胜利，我们却不能高兴的太早，更大的挑战还在后面。而如何解读这些生命天书成了我们在后基因组时代所面临的首要问题。我们不禁要问这些基因都在执行什么功能？这些基因之间如何协调工作？这些基因与环境间的关系又是如何？

遗传学的发展让我们有机会揭开生命谜团的冰山一角，通过对突变体的筛选和研究，我们了解到了一些基因的功能和作用方式。但相对于生物基因组中庞大的基因数目，这些基于偶然性的研究成果还是显得杯水车薪。而且，通过突变体研究基因功能，存在着很大的先天不足。比如，对于那些对生命过程很重要的基因，我们拿不到相应的突变体（因为这些基因一旦突变将导致生物无法存活）。所以，我们就迫切需要一个全新的研究手段，这种手段最好能无偏见的覆盖所有基因，并且最好是高通量的以与不断公布和更新的各物种的基因组序列相适应。而我这里要介绍的基因组相关性研究(Genome-Wide Association Studies)正是这样一种研究手段。这期Nature（2008 Dec 11）就对这个研究方面做了特刊评述。

我先简要介绍下这个方法吧。比如我们可以分别测定患有某种疾病的人群以及正常人群的DNA序列（实际上并不需要全基因组测序，只需测定一定量的标识片段，即Marker)，不难预见，病人和正常人的基因组序列将在多个位点存在差异（这种差异主要包括单核苷酸多态性即SNP以及插入缺失即 Indel）。通过对这些差异位点的统计分析，我们可以找出与那种疾病最相关的一组或几组差异位点。那么，现在我们至少可以做两件事情。第一，对这些差异位点所在的DNA区段以及周边区段做进一步的遗传分析，找出与这种疾病直接相关的基因。第二，如果第一点暂时做不到，我们也可以将找出的与疾病表型最相关的差异位点群作为诊断或预测这种疾病的代理标记（Proxy），即如果某个人的基因组在这些位点上与正常人的基因组存在差异，那么他患有这种疾病的风险可能比较大。总之，通过这种技术，我们可以快速简便的将基因组中的遗传差异(Genotype)与表现型(Phenotype)联系起来，为后续研究打下了很好的基础。尤其是伴随着新一代测序技术的产生（比如 Illumina公司的快速测序技术和ABI公司的SOLiD 系统技术），这种GWA分析有着非常好的应用前景，比如基于疾病分析的个体化医疗（Personalized Medicine），比如基于品质和产量分析的作物育种等等。

当然，现在这种方法还并不十分完善，主要是太依赖于统计分析了，所以假阳性（False Positive)和假阴性（False Negative)结果还是比较多的。比如说吧，通过这种方法找到的基因有可能和表型很难联系到一起（当然不排除我们现有认识还比较肤浅的成分），但统计结果却很显著，造成假阳性。再比如，有些在研究单一位点的试验中成立并且其生物学意义也合情合理的相关性位点在这种大规模的基因组水平分析中却由于统计显著性的缘故被排除掉了。但不管怎么说，至少这种方法为我们进一步研究基因功能提供了一个基本平台，相信通过后续研究的去芜存菁以及这种方法自身的改进，应该可以让我们在后基因组时代的探索征途中迈出坚实的一步。正如本文上方的插图，也许这张地图由于时代和技术的原因在很多细节上还非常模糊，但它毕竟已为我们勾勒出了这个世界的轮廓。

参考文献

1. M. Nordborg, D. Weigel （2008）Next-generation genetics in plants. Nature 456:720-723
2. P. Donnelly (2008) Progress and challenges in genome-wide association studies in humans. Nature 456:728-731
3. M.V. Rockman (2008) Reverse engineering the genotype–phenotype map with natural genetic variation. Nature 456:738-744

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。其它来源的文章系转载文章，本网所有转载文章系出于传递更多信息之目的，转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言