如何综合利用二代和单分子测序技术实现更好的复杂基因组测序的从头组装测序

单分子实时测序技术的三大优势 - 分析行业新闻
单分子实时测序技术的三大优势
  Biosciences的实时(SMRT)因其出色的读长而引人注目。然而,因通量较低,且一直被错误率高的流言所困扰,SMRT技术似乎有些被忽视。近日,几位著名科学家在《Genome
Biology》杂志上发表文章,试图消除这些误解,为SMRT正名。
  这篇文章的通讯作者是New England Biolabs公司的首席科学家Richard
J.Roberts博士。他也是1993年诺贝尔医学奖获得者。另外两名作者分别来自Poad研究院和冷泉港实验室。作者认为,当今的新一代测序技术有一些明显的限制,特别是读长短和扩增偏向,这限制了我们对完整基因组测序的能力。同时,随着新一代测序技术的兴起,人们的重点似乎也不放在新发现的基因有何功能,而那些功能如何让生物体工作,但这正是我们测序的首要原因。
  然而,SMRT这项新技术不仅能从单个未扩增的分子中产生更长且高度准确的DNA序列,还能显示甲基化的碱基存在于何处,从而提供了有关DNA甲基化酶的功能信息。如今,PacBio
RS II的平均读长达5,000 bp,最长读长超过20,000 bp,通量也较之前的版本增加一倍。
  作者在文中提到,SMRT技术具有三大优势。首先,长的读长特别适合新颖基因组的de
novo组装。尽管新一代测序能够提供基因组的深度覆盖,但短的读长和扩增偏向会导致片段化的组装,特别是在遇到复杂重复或扩增不佳的区域时。利用
SMRT测序运行的长reads,它将覆盖更多重复和缺失的碱基,从而自动消除缺口,节省整理时间。目前细菌基因组正利用这种方法完全组装,他们希望这种做法在不久的将来会转化到更大的基因组。
  其次,考虑到DNA甲基化酶。这些作为单独的实体或限制-修饰系统的一部分而存在。在这两种情况下,DNA甲基化酶对相对短的序列motif进行甲基化,因DNA聚合酶的动力学有所改变,从而很容易从SMRT序列数据中识别。此外,SMRT测序也能识别RNA碱基修饰,不过要用RNA转录酶取代DNA聚合酶。因此,通过这种测序方法可直接获取功能信息。
  第三就是关于SMRT测序不如其他NGS平台准确的流言。研究结果已表明,SMRT测序与其他测序技术在确定遗传多态性上的性能相当。同时,利用SMRT测序及其他技术来组装完整基因组被证明与传统方法同样可靠且准确。此外,也有人证明,只利用SMRT测序reads进行组装实现了与其他平台相当甚至更好的性能。
  作者也进一步谈了平台错误率。他们认为,SMRT测序数据的优势在于其读长长和错误的随机性。单个reads确实包含较多的错误:大约11%-14%,或Q12-
Q15,而Illumina为Q30-Q35。然而,考虑到足够的深度(比方说8x或更高),SMRT测序提供了高度准确的基因组序列,因为同一错误不可能被观察到很多次。
  作者总结道,将其他技术的序列密集数据与中度覆盖的SMRT数据相结合,可改善基因组,获得它们的甲基化模式,并推导出甲基化转移酶基因的功能活性。作者呼吁从事细菌基因组研究的所有小组采用这一策略。
  此外,随着PacBio RS II仪器的推出,作者认为SMRT测序有望更广泛地应用于真核基因组的组装。
本文来源:
生物通&&&&
分段浏览:
扫描二维码,在手机上查看:/news/339722.html
其他网友还关注过
请用手机扫描二维码
Copyright (C) ANTPEDIA, All Rights Reserved 京ICP备号 京公网安备 电信与信息服务业务经营许可证:京ICP证110310二代测序技术专题
针对PacBio单分子测序——第三代测序技术的测序原理和读长
发布日期:&&查看次数:
& & & & DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业。测序技术的应用也扩展到了生物、医学、制药、健康、农林、园艺、花卉、环保、法医等许多领域,并成为一项与我们衣食住行密切相关的高技术产业。据最新统计,2012年全球基因测序市场的产值已超过百亿,按最近几年增长速度,预计2017年市场产值将加倍。因此可以说,基因测序在我国生物科技领域具有非常重要的战略意义。
& & & & &第三代测序技术&的研发已有近十年时间,商业化的第三代测序仪上市也有三年,目前,国内对Pacbio单分子测序研究也有了最新进展:
一,中科院药植所采用PacBio单分子测序揭示丹参叶绿体DNA修饰之间复杂的相互作用:编码及非编码RNA的表达
& & & & 日,中科院药用植物研究所(IMPLAD)刘昶团队在《PLOS ONE》杂志上发表了利用PacBio测序技术揭示丹参(Salvia miltiorrhiza)叶绿体DNA修饰之间复杂相互作用的相关文章,该文章报道了丹参叶绿体中编码及非编码RNA的表达情况。这也是国内PacBio第三代测序用户在国际性杂志发表的第一篇文章。
& & & & 丹参是最广泛使用的药用植物之一。作为基于叶绿体基因工程手段开发使丹参活性成分过表达方法的第一步,该研究团队从基因组,转录组,和碱基修饰三方面对丹参叶绿体进行了分析。先从新鲜叶片中提取总基因组DNA和RNA,然后进行链特异性RNA测序和PacBio公司的单分子实时(Single-Molecule Real-Time, SMRT)测序分析。
& & & &实验先是将RNA测序得到的reads mapping到基因组,使该研究小组确定了80个蛋白质编码基因的相对表达水平。此外,还明确了19个多顺反子转录单元和136个假定反义和基因间非编码RNA(ncRNA)基因。将蛋白编码基因的转录本(cRNA)丰度与重叠反义非编码RNA(asRNA)相比较表明,asRNA的存在与cRNA的丰度增加有关(P&0.05)。使用SMRT Portal软件预测到了2687个潜在的DNA修饰位点和2个潜在的DNA修饰基序。两个基序包括TATA盒样基序(CPGDMM1, ''TATANNNATNA''),以及一个未知的基序 (CPGDMM2, ''WNYANTGAW'')。
& & & & 研究采用二代和三代DNA测序技术并用,使在基因组层面研究非编码RNA和DNA修饰成为可能。然而,原来关于反义RNA和DNA修饰研究在实验上具有相当大的困难。首先,大多数asRNA转录本表达水平显著偏低,因而难以用经典技术如Northern Blot和原位杂交进行验证。第二,正义和反义转录本之间错综复杂的关系意味着实验扰动会不可避免地干扰其他转录本的表达。因此,通过knocking-in和knocking-out技术确定转录本的生物学功能是复杂的。第三,虽然SMRT技术已被证明能够检测到潜在的DNA修饰,但验证这些修饰仍然是个挑战性的任务。第四,叶绿体asRNA和DNA修饰的存在和功能的验证是更加困难的。
& & & &综上所述,本研究所描述的一些发现从目前的技术上来讲是有巨大进步的。然而,本研究提出的数据已经证实了由asRNA和DNA修饰引起的基因表达调控的复杂性。
二,三代基因测序组装算法和软件研发获突破
& & & & &第三代测序技术&的研发已有近十年时间,商业化的第三代测序仪上市也有三年。但目前测序市场仍为二代测序技术所垄断(我国顶级科研机构和商业公司所拥有的三代测序仪可能仅有数十台)。三代测序技术产生的读段更长,测序成本更低,其取代二代技术是测序技术发展的必然趋势。然而由于三代测序技术错误率高,现有的组装软件多是对第二代测序数据组装软件的&修补&而并没有充分考虑到三代测序技术的数据特征。事实上,基因组装算法问题被广泛认为是计算生物学和生物信息学领域最复杂的计算难题之一,也是目前阻碍基因测序产业从二代技术升级到三代技术最大的技术障碍。
  最近,美国马里兰大学 Chengxi Ye, James A. Yorke, Aleksey Zimin 等与中国科学院昆明动物研究所遗传资源与进化国家重点实验室马占山研究员在这一领域的合作研发取得新突破。该研究团队在一篇题为DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章中引入了一种新的针对三代测序技术的基因组装算法,并开发出一款软件(DBG2OLC)。另外作者(Ye et al. )于2011年发布的SparseAssembler曾经比当时主流的基因组装软件节省90%的内存空间,而其计算时间和组装质量却毫不逊色。著名的SOAPdenovo的升级版,也是目前最广泛应用的基因组装软件SOAPdenovo2即采用了SparseAssembler算法。
  多组测序数据的测试表明:与目前用于三代测序最优秀的一些基因组装软件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在计算时间和内存空间的消耗通常仅为其它算法的1/10。理论上,DBG2OLC 在时间和空间的使用上相对其它同类软件可减少达1000倍。例如组装关键步骤之一的&两两比对&计算,采用一组由 PacBio提供的人类基因组数据,DBG2OLC 使用一台普通PC仅用了6小时完成。而同样计算,Pacific Biosciences所报道的时间为 405000 CPU小时,而且是在Google的计算集群上完成。因此,DBG2OLC 算法基本解决了目前三代测序技术所面临的计算技术挑战,从而为推进基因测序技术的产业升级奠定了良好的技术基础。
三,PacBio RS II&测序系统原理
PacBio RS测序仪系统能够对单个DNA(脱氧核糖核酸)分子进行测序,而目前市场上
的主流测序仪只能对分子群体进行平均测序。单分子测序能对DNA中罕见的序列变异进行分析,也不需要在测序之前对DNA样本进行放大,因为放大过程可能引发错误,导致对某个DNA序列检测失败。其工作原理是用一种聚合酶将DNA的复制限制在一个微小的间隙中,给各种碱基加上荧光示踪标记,当碱基合成DNA链时,这些荧光标记就会发出不同颜色的闪光,根据闪光颜色就可识别出不同的碱基。
PacBio RS II 测序系统特点
1、测序读长长:平均测序读长能达到3,000至5,000碱基,最长的序列能达到20,000碱基;
2、准确率高:对基因组组装和基因组变异检测,可以最多达到99.999%的准确率;选用特殊测序模式,测序准确率可以在达到单个分子99%准确率的条件下,读长超过经典的Sanger测序法;
3、极度的敏感性:可以检测频率在0.1%的 minor variants;
4、直接检测广泛的碱基修饰:除了5-methylcytosine修饰以外, 还可以检测N6-methyladenine, N4-methylcytosine, DNA氧化损伤 以及其它碱基的修饰.
5、GC偏向性(GC bias)小:在极端高GC和极端低GC区域,可以轻松测定,从而保证序列的均匀覆盖度;
6、无PCR扩增偏向性:样本不需要进行PCR扩增,避免了覆盖度不均一和PCR artifacts.
上一条: 暂无信息
友情链接:&
地址:上海市徐汇区漕宝路401号3号楼4楼D座 | 电话:021-11910 | 传真:021- | E-mail:marketing@
版权所有:上海仁科生物科技有限公司 备案号:沪ICP备号 技术支持:浦元}

我要回帖

更多关于 人类基因组测序 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信