注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Bioinformatics home

 
 
 

日志

 
 

EST电子延伸  

2010-05-24 11:26:10|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

================================================================================
                 在BLAST比对EST数据库以后,对EST序列进行质量把关是很重要的,通过cross_match,repeatmasker等把低质量的部分去除,然后再进行contig assembly的工作,这样可以保证得到的contig的质量。在这一步,还有两个要注意的地方:
1  如果是用自已的EST数据库延伸,最好用phred -qa 'filename'的方法进行base calling质量鉴定,然后再用phrap进行组装时就可以充分利用phred的打分情况。一般来说,30分意味着正确率约为99.9%。
2 BLAST的EV值得选好,根据比对的数据库大小,EV值适当地进行调整。如果是比对人源EST库,我的经验值是1e-30 -- 1e-40之间。

在phrap组装contig以后,需要判定有效组装的contig,这里有一个contig得分情况应该参考,不然,phrap可能组建出N多方案,如果只靠跟种子的同源性筛选contig,很容易把本来就错误的contig拿来做下一轮的种子。

另外,在程序中需要注意控制对延伸结果质量的检验,一般来讲,如果延伸结果序列能十之***在同一条染色体上找到同源部分,(用blat或者blast均可),那么这个延伸就可能是有效的。
                                        ================================================================================
                 这个题目很及时,因为小弟近来正在做电子克隆,菜鸟一个,实在有不少问题,呵呵
1.对于EST质量的评估,我几乎是没有的,呵呵,见笑了, 因为我正在分析的十几个EST是以前老板做了一个基因芯片得到,质量如何,偶不懂得评估,呵呵,只是在blast前,去掉载体部分就算了,
  所以想请教一下如何评估EST的质量,数目不多,十几个。

2.关于下载EST 的范围,也就是blast的EV,基本上我看一下最后一个alignment有%26gt;40个,的95%以上,我就认为可以了,点击“select all"的按钮,再点击”get selected sequence",这样能得到50个EST的“nucleotide”页面,在格式中选择“FASTA",在数量中选择”50“,选择文件格式为” file“,再点击”sent to“,这样下载了50个est的序列。(为一个单独的文件)

3.关于拼接,我也曾用过DNAMAN,不过它拼接的结果有非ATCG的字母,我自认为这不利于第二次延伸,就没有继续用DNAMAN了,不知大家有没有用过DNAMAN,用过的话,是怎样评价它的质量的。
   没有办法,我只好到一个叫cap3的网站进行拼接,不过这个网站对那个50个EST的文件能处理,但这个文件和我的种子序列放在一起的时候,也只仅仅处理50est文件。 所以我想知道大家是用什么来拼接

以前我也在丁香园问过一些关于电子克隆的问题,在这里就不再重复,希望各位战友分享自己的经验,谢谢。
                                        ================================================================================
                 看过这方面的材料,因为不搞这一方面,所以说不出1、2、3来。不过我手中有有一本生物信息学书,上面介绍:
      利用UNIGENE 数据库进行电子延伸。网址为:

http://www.ncbi.nlm.nih.gov/blast/blast.cgi
   ,选择数据库dBest,利用blastn程序进行同源性检索。
     本来把这几叶书拍了下来,但不清楚,所以也无法上传。
                                        ================================================================================
                 感谢支持,还是希望能够分享你的书籍。
                                        ================================================================================
                 贴一篇有关EST的文章的总结:生物信息学应用:序列分析,电子克隆等初探http://www.biox.cn/Show.asp?ArticleID=347
                                        ================================================================================
                 总结几个可做电子延伸网址

http://www.bioinfo.org.cn/lmh/est.htm


http://www.infobiogen.fr/services/analyseq/cgi-bin/cap_in.pl


http://www.lsi.upc.es/"alggen/recerca/essem/frame-essem.html


http://compbio.ornl.gov/Grail-1.3/


http://bioweb.pasteur.fr/seqanal/interfaces/merger.html

                                        ================================================================================
                 感谢楼上两位的热情推荐!
                                        ================================================================================
                 为感谢丁香园主任imsupergene给予的加分鼓励,再总结了一些做电子克隆或做序列拼接的软件,简单的说明和链接
1.DoubleTwist 公司出的 GeneTool:(http://www.doubletwist.com/downl ... neTool-Lite-win.exe)  和PepTool: (http://211.157.118.253/biologysoft/PepTool-Lite-win.exe
2.InforMax 公司的 Vector NTI Suite 9.0  ContigExpress-将小片段拼装成长序列
http://www.dxy.cn/bbs/post/view?bid=10%26id=387199%26tpg=1%26ppg=1%26sty=1%26age=0#387199

3.LaserGene 99
http://211.157.118.253/biologysoft/LaserGene.zip又名DNAstar,功能主要有:序列的格式转换,序列拼接和重叠克隆群的处理;基因寻找;蛋白质结构域的查找;多重序列的比较和两两序列比较;寡核苷酸设计(PCR引物,测序引物,探针)。

4.Macaw 2.05 多序列构建与分析软件。从大量的蛋白序列与DNA序列数据中显示类似的分子结构与生物特性http://211.157.118.253/biologysoft/Macaw%202.05.zip
5. phrap
6.CAP:http://iubio.bio.indiana.edu/soft/molbio/align/cap.tar.Z
7.SeqAssem : DNA Contig Assembly Software  
http://wwwuser.gwdg.de/"dhepper/download/seqassem.zip

8.SeqPup:  


9.DNAMAN:Sequence assembly editor可以进行电子延伸和序列装配 下载连接见http://www.dxy.cn/bbs/actions/archive/post/320942_0.html
10.DNAStar5.03 该软件的MegAlign模块,可以对多达64000的片段进行拼装。整个拼装过程即时显示,并提示可能的完成时间。拼装结果采用序列、策略等方式显示。


http://www.cbi.pku.edu.cn/ss/ppt/chen3.ppt关于序列装配的一个幻灯片


http://wheat.pw.usda.gov/cgi-bin/westsql/est_blast.cgi一个电子延伸的网址

                                        ================================================================================
                 意大利遗传与医学研究所的EST Mechine由estextract和estmachine两个部分组成

gcg.tigem.it/BLASTEXTRACT/estextract.html


http://www.tigem.it/ESTmachine.html

                                        ================================================================================
                 crickfrancis wrote:
意大利遗传与医学研究所的EST Mechine由estextract和estmachine两个部分组成

gcg.tigem.it/blastextrct/estextract.htm


www.gcg.tigem.it/blastextrct/estmachine.hmt



兄弟,连接不上啊。
                                        ================================================================================
                 个人总结:
我觉得要做好电子延伸,必须要把它上升到系统的高度。
基本同意starrweb战友的提法(那个图8错)。

电子延伸系统应该有以下几个部分组成:
预处理(pre-processing)、聚类(clustering)、拼接(assembly) 和分析(analysis)。

一.预处理仅仅去除载体序列是不够的:
1.去除载体序列,用crossmatch程序。
载体序列库为



2.将ESTs序列将与人重复序列库(RepBase,
http://www.girinst.org
) 比较,去除重复序列,这样可以提高拼接的效率。

3.其它潜在的污染序列(如鼠DNA序列、线粒体、核糖体DNA 序列等)
前些时候就发现一些EST数据中存在线粒体序列污染(发了第一个SOS的帖子,得到了我在DXY的第一分),大家应该根据具体的数据来源来分析可能的污染.

4.还有几种污染属于研究前沿,至今没有很好的解决。
包括:来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子(不是以GT或GC开头和AG结尾的内含子)的EST,这些都会影响拼接的成功率和正确率。

二.聚类(clustering):
在对大量ESTs数据进行分析时, 情况比较复杂,从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。

用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。

搜索UNIGENE数据库也是一个完成聚类的捷径(本论坛
http://www.dxy.cn/bbs/post/view?bid=73%26id=1361500%26sty=1%26tpg=1%26age=0
讲了这个方法),但是我的经验是UNIGENE是一个错误比较多的数据库,最好在选取了unigene的某个cluster以后对它进行处理,再在基因组上校正一下错误,我发现unigene的含错率还是比较高的,会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。
另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。

聚类分为不严格的和严格的聚类( loose and stringent clustering ):
不严格的聚类: 不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中, 表达基因ESTs 数据的覆盖率高, 含有同一基因不同的转录形式, 如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site) 而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene) 的转录
本, 信噪比低, 序列的忠实性低。这种系统的代表, 如STACK 采用的基于字的聚类算法, 即d-square 聚类。
严格的聚类: 严格的聚类系统产生高度相关的聚类成员, 因此忠实性更加可靠。但是, 表达基因ESTs数据的覆盖率低, 因此所含有的同一基因的不同转录形式少。这种系统的代表, 如TIGR的Gene Indices 所采用的类似于BLAST 和FASTA的序列比对程序FLAST。

三.几种拼接程序及其评价:前四个比较经典
1.PHRAP(phragment assembly program)(
http://bozeman.genome.washington.edu/index.html
  ) 是一个拼接霰弹法产生的序列片断的程序。注意特征为:允许使用所判读的完整序列而不仅仅是经剪切的高质量部分;在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;可提供广泛的包括质量值在内的关于拼接的信息,可控制非常大的数据集。但它单独不能提供编辑或浏览的功能。最佳搭配是PHREP+PHRAP+CONSED,该套系统就可以高效、规模化地进行EST序列的拼接延伸。缺点是如果以可变剪切的基因来试验,Phrap可正确地拼接出它所产生的一个蛋白,但是不能发现其它可变剪切的结果,如AMP2基因。

2.CAP3
该软件是CAP(contig assembly programme)的改进版本,可在线进行。该软件适用于EST拼接,可快速去除不能拼接在一起的序列,运用动态规划算法可容忍序列的部分错误,可剪切掉所判断序列中5·和3·端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制,建立多重比对,产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。PHRAP可以产生较长的重叠群,而CAP3拼接起来的一致性错误比较少,同时它运用正反向约束机制来处理低质量序列时更容易得到结构框架(scaffold)。但是它同样不能发现AMP2基因的可变剪切变体。
CAP3在线服务:
http://bioinfomatics.iastate.edu/aat/sas.html


3.TIGR assembler
下载到本地进行,与PHRAP一样是针对基因组序列拼接的。采用的是贪婪算法,我们同样地拿它检验AMP2,可以拼接出它的蛋白,而且可以找到由两个EST构成的变体,但是没有任何证据和实验能够证明它的真实性。

4.zEST assembler
zEST assembler是专门为EST设计的拼接软件。它由两个步骤组成:a.EST聚类 ;b.拼接EST.运用zEST assembler优势在于可以发现不同变体和多态性。zEST assembler不同于其它程序,采用的是自组织算法,通过EST与已有的一致序列相比获得新的一致序列,从而得到新的变体。

除了上述的四种,还有很多关于序列拼接的程序:
MIRA2:
http://chevreux.org/mira_downloads.html


GigAssembler:
http://www.cse.ucsc.edu/"learithe/browse/goldenPath/algo.html


Celera Assembler:J.Comp.Biol,1995,2,275-290

ARACHNE: Genome Reserch 2002,177-189

EULER: PNAS(2001)98(17),9748-9753

The Phusion Assembler:Genome Reserch 2003,13(1):81-90

ESTBlast:
http://www.hgmp.mrc.ac.uk/ESTBlast/


四:分析(analysis)及文库构建

通过以上软件对EST进行拼接,并不是说就万事大吉了,还要验证拼接是否正确,或同时想经过比对对结果再进行延伸,就需要与转录组数据库和蛋白质组数据库进行比对,

转录组数据库有:
DoTS:http://www.allgenes.org
MGC:
http://mgc.nci.nih.org

unigene:


TWINSCAN:
http://genes.cs.wustl.edu

HUNT: Nuleic Acids Reserch (2001) 29(1):185-8
dbtss:  Nuleic Acids Reserch(2002) 30(1):328-31
fantom:Nature (2002) 420:563-573

蛋白质组数据库:
TrEMBL:  Nuleic Acids Reserch(2000) 28(1):45-48
GenPept:
http://www.ornl.gov/sci/techresources/Human_Genome/publicat/hgn/v8n2/12genpep.shtml


这里实在没有力气再详细介绍了,大家上网搜搜资源就OK,很容易找到。

如果拼接完了,还想判断全长cDNA的完整性,常用的方法有ATGpr和ATGsim,如果大家想知道具体方法,以后可以再写上。
这个过程中ORF的选择也是一个比较重要的问题,说细了又是一篇文章。

再进一步的话你就甚至可以构建你的全长cDNA文库了。

总结:
说了这么多,看起来这个体系好像已经比较完备了,实际上我们要做的事情还很多。

首先可变剪切是一个大问题。由于一个基因mRNA 剪接位点不同, 可获得多个cDNA 克
隆, 因此EST 既可能对应于一个cDNA 的某一部分, 又可能代表mRNA 的不同剪接方式。所以我们可以挖掘的可变剪切的信息还有很多。

其次,由于特定组织在特定时间的表达水平不同, 因此所构建的cDNA文库中可能会缺失低表达基因的转录本而高表达基因的转录本却过于丰富,既冗余性很大,为我们聚类带来了困难。同时可能鉴定不到低丰度基因、组织特异性基因、不同发育阶段表达的基因。

再次,测序带来的EST错误不是随机分布的,例如:自动化测序中会出现一些错误, 包括碱基的替代、插入和缺失,这些错误主要分布于序列的两端。EST s 数据拼接算法需要考虑ESTs 数据存在的错误类型及分布, 以获得高度忠实的共有序列。
                                        ================================================================================
                 hxygz总结得很好,请跟贴,补加5分。
欢迎继续将没有讲完得讲完,大家都瞪着呢。

另,欢迎继续讨论,欢迎大家讲自己的经验说出来,如果有实例演示,重奖。
                                        ================================================================================
                 凑热闹:只为活跃气氛,支持


http://bioinformatics.org/annhyb/fasta_blast_scan.php3

软件:

http://berry.engin.umich.edu/oligoarray/installation.html

                                        ================================================================================
                 我是外行,添添人气,支持老版一下 !希望没有跑题


http://www.biox.cn/Show.asp?ArticleID=347

                                        ================================================================================
                 我把自己看过的与这个话题有关的一本自认为很好的书也传上来吧,含金量请老版鉴别。
                                       

                                                                                                                                



生物信息学概论.pdf
(564.48k)                                       
                                                                                                ================================================================================
                 再传一些相关的东东:
                                       

                                                                                                                                



新建文件夹.rar
(174.69k)                                       
                                                                                                ================================================================================
                 首先感谢斑竹加分鼓励,斑竹语:“其实战友的点击、浏览、学习、肯定、收获、回报其实才是最大的奖励”。所以今天又有动力把上次没有说清楚的地方继续写完:

第四部分 分析(analysis)及文库构建讲的比较粗略,今天弥补一下!

上次讲到如果要验证拼接是否正确,或同时想经过比对对结果再进行延伸,就需要与转录组数据库和蛋白质组数据库进行比对,

今天具体介绍一下这些库:

转录组数据库有:
DoTS:http://www.allgenes.org

DoTS(Database Of Transcribed Sequence)是一个人类和小鼠转录本索引,来自所有公开的的转录本序列,它是由输入序列聚类后拼接而成的,大部分由人工注释,较准确。在版本8中,通过Blast算法得到的基因模块里已经包含了53,204个人类DoTS基因和47,522个小鼠基因。

MGC:
http://mgc.nci.nih.org

I.M.A.G.E.联盟(I.M.A.G.E. Consortium)包含了来自六个物种的超过5,500,000条cDNA克隆,分析产生的结果发布到Genbank。具体可见MGC(The Mammalian Gene Collection Project),它由NIH赞助,主要是为获得人类、小鼠、大鼠、的全长开放阅读框架(FL-ORF)。到2004年3月22日,人类、小鼠和大鼠的非冗余基因分别已经达到11,311个、10,314个、645个。

Unigene:


Unigene是被整理成簇的EST和全长mRNA序列,每一个代表一种已知的或假设的人类基因,有定位图、表达信息以及同其它资源的交叉参考。序列数据库可以cluster形式在Unigene网页下载,目前人类基因归入105,680类中。
PS:小技巧,有一个文件在NCBI的匿名站点上为Hs.seq.uniq.Z,它包含每一个cluster中的一个质量最高、长度最长的序列。

TWINSCAN:
http://genes.cs.wustl.edu

TWINSCAN是Genscan概率模式的扩展,是一种新的基因结构预测系统。它可以对两个亲缘关系比较近的基因组进行同源性分析。各概率模型分别用于描述外显子、内含子、剪切位点及UTRs的保守性,以用来反映他们的进化保守模式

HUNT: Nuleic Acids Reserch (2001) 29(1):185-8

dbtss: Nuleic Acids Reserch(2002) 30(1):328-31

fantom:Nature (2002) 420:563-573

蛋白质组数据库:

TrEMBL: Nuleic Acids Reserch(2000) 28(1):45-48
TrEMBL(Translaition of EMBL),该数据库采用SwissProt数据库格式,包含EMBL数据库中的所有编码序列的翻译。TrEMBL的数据库分为两部分,SP-TrEMBL和
REM-TrEMBL。SP-TrEMBL中条目最终将归并到SWISSPROT数据库中。而REM-TrEMBL则包括其它剩余的序列,包括免疫球蛋白、T细胞受体、少于8各氨基酸的小肽、合成序列、专利序列等。

GenPept:
http://www.ornl.gov/sci/techresources/Human_Genome/publicat/hgn/v8n2/12genpep.shtml

与TrEMBL类似,GenPept是由Genbank翻译得到的蛋白质序列。由于TrEMBL和GenPept均由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大冗余度。但对于未知EST来说,是非常重要的。

上次讲到如果拼接完了,还想判断全长cDNA的完整性,常用的方法有ATGpr和ATGsim
ATGpr:是基于基因组序列中一致基因的注释信息通过人工剪切,得到全长的mRNA数据库,然后以此来建立预测模型。

ATGsim:是结合与已知蛋白质的相似性和ATGpr分值

我的经验是:鉴于目前大部分数据都为包含了完整的ORF的非全长RNA,也就是说没有包含5`端的帽子结构而只包含了5`UTR区少量部分,以这些方法判断拼接是否完整分值都较低。欢迎大家列举更好的方法。

目前用于ORF预测的工具可以分为两类:
1.如rsCDS,它使用与已知蛋白质序列的同源性来预测

2.如Procrest、Longest-ORF、Truncated-ORF,它们采用的大都是从头预测的方法

3.如DECODER、NCBI ORF Finder则是两种方法的结合。

这些方法都可以预测ORF,但是对于含完整的阅读框架的非全长cDNA,要判断哪一个ORF是可能真正的ORF还未见真正的标准,只是各项统计的结果。

再进一步的话你就甚至可以构建你的全长cDNA文库了。基于目前转录组中大部分序列都未包含5`端的帽子结构或完整的5`UTR区,要想真正地得到大量的可靠的全长cDNA,就有必要建立自己的全长的cDNA文库。目前建立全长的cDNA文库地的方法是Gubler和hoffman的cDNA合成法、 Frohman的RACE技术、Chenchik的加特异接头及大片段高保真扩增法、CAP Finder、Capselect、CAP-Trapper、CAPture、Oligo-Capping等。
总的来说对于合成个别基因的全长cDNA,RACE技术相对较好。
对于大规模构建全长cDNA文库,其中较好的有Oligo-Capping、CAP-Trapper技术。

谢谢
                                        ================================================================================
                 sunxjk wrote:
凑热闹:只为活跃气氛,支持


http://bioinformatics.org/annhyb/fasta_blast_scan.php3

软件:

http://berry.engin.umich.edu/oligoarray/installation.html



十分感谢,希望继续关注和支持!
                                        ================================================================================
                 fxd wrote:
再传一些相关的东东:


谢谢,你推荐的这几篇文章很好啊,不过好像不太全。
                                        ================================================================================
                 hxygz wrote:
首先感谢斑竹加分鼓励,斑竹语:“其实战友的点击、浏览、学习、肯定、收获、回报其实才是最大的奖励”。所以今天又有动力把上次没有说清楚的地方继续写完:

谢谢


十分感谢hxygz战友所作的工作,很细致、很好。欢迎常来,另不知阁下做的是那方面的,能否认识一下。
                                        ================================================================================
                 hxygz的这个帖子应该是很完整的。

我狗尾续貂,补充一点EST的介绍吧,以前讲课的内容。

EST,表达序列标签(Expression sequence tag)短 cDNA序列,完整基因的某些片段。单次文库测序产生的cDNA,一般在400-600bp,GeneBank中大约70%是EST

EST如何产生:从特定的状态的组织或细胞中分离 RNA,将RNA逆转录成cDNA
亚克隆到载体中, 利用载体上的引物对插入片段测序 测序出来的片段结果即称为ESTs  (expressed sequence tags)

EST的产生过程注定其具有以下特性:
1.由于是单次测序结果,序列的精确度较低,存在较多错误。(大约 2% error,HGP错误率标准是%26lt;0.01%).
2.重复结果多,不同 EST‘s t往往来自同一个基因。
3.因此,对 dbEST进行blast时最好用BLASTX and TBLASTX.   
4.大部分EST序列来自IMAGE consortium

四个学术团体在1993年倡导成立。宗旨在于协作,以便更好的对基因组及其表达进行分析。从用于EST测序的文库中挑选单个的克隆,整理后免费提供给各研究者。目前已有超过360个人和108个鼠的cDNA文库中共3.8个million cDNA克隆。

IMAGE consortium的序列在Washington university 的基因组测序中心测序,占GENEBANK中EST库的大半。较为可靠。大部分dbEST都有IMAGE ID,描述其组织或细胞来源,测序情况。也可以免费索取该克隆。

由于这些特性,导致目前EST面临的最大问题是序列质量不高,存在
1. 缺失、替代、插入等变异(与mRNA相比)
2. 测序中的错误引发(大约1.5%的利用oligo T产生的EST无法与已知的mRNA的3端比对上。
3. 倒置(5端和3端弄反,插入克隆载体时出错)
4. 嵌合EST (5端和3端来自不同mRNA)

因此,在对EST做Blast时最好用BlastX和Tblastx。

个人观点:其实EST兴起较早,国内在上个世纪90年代也有较多研究。随着多个EST库如NCBI的DBEst和Unigene,TIGR的gene indices、STACK的建立以及大的科研机构的撒网式高通量分析。想通过EST找到新的gene的可能性非常低。当你辛辛苦苦测序,拿到一个 EST,做完比对后,你会发现它和某些EST相似性很高,而这些相似性很高的EST很可能已经被归到Unigene中某个条目下,很可能就有现成的完整 ORF的序列等着你。也就是EST的拼接和延伸的工作的意义往往不大,很多情况下你不需要做这些。(当然,如果你手头的EST是这些EST库中都没有的,那可能就是一条大鱼,需要自己来拼接延伸了)

EST的意义,在现在,可能在于可变剪切和已知基因的未知功能上。
                                        ================================================================================
                 楚兄的补充也很必要啊。

十分感谢。
                                        ================================================================================
                 看到一篇文章,是讲相关的基础知识

http://www.tijmu.edu.cn/edu/019.doc

                                        ================================================================================
                 呵呵,门外汉也来抽个热闹,希望早日加入BIOINFORMATICS的行列。

有需要可以上传一下书籍:
Bioinformatics Computing
Bioinformatics-A Practical Guide to the Analysis of Genes and Proteins Second Edition
Bioinformatics-Sequence and Genome Analysis
Current Protocols in Bioinformatics
Computational Molecular Biology
                                        ================================================================================
                 呵呵!

欢迎!欢迎!
                                        ================================================================================
                 谢谢各位战友的意见和建议,因为小弟目前正在分析十几个的cDNA,这些序列是老板以前做基因芯片测序得到的,长度从几百到一千多不等,

起初,我到NCBI做blastn,发现有些cDNA与某些已知基因的3’端转录非翻译区能够alignment, 但某些cDNA提示在某些序列克隆里,对于后者,曾以为可能是个新基因,就开始做电子克隆,但做了几个,效果不理想,一般来说序列延伸不是很长,分析延伸的contig也没有什么好的结果,呵呵,菜鸟一个让大家见笑了。

后来有战友建议我到UCSC中查询,我才发现原以为是新基因的序列都位于某些已知基因内,呵呵,有点失望。

所以我想说几句不中用的话,呵呵
1.人类基因组序列已经完成有些时间了,外国的大鳄已经将序列分析或预测已经差不多了,当然这当中有功能已知或未知的基因之分,

2.做电子克隆,其来源的EST有所不同,对于已知基因,提交的EST肯定比未知基因的EST数目要多,

3.电子克隆也不是一点用途都没有,对已知基因,我猜想是否可以发现可变剪接体,对于未知基因,是否可以得到它的整个编码区或者可变剪接体,

以上仅为小弟的愚见,请各位战友多多指正,
                                        ================================================================================
                 很好的观点,为电子克隆找到了新的应用重点。

此外,我还有一个想法:


对于一个序列进行克隆现在很成熟了,那末对于大量序列的批量克隆,大家给点意见如何。


                                        ================================================================================
                 楚布衣主任说得很对:
“个人观点:其实EST兴起较早,国内在上个世纪90年代也有较多研究。随着多个EST库如NCBI的DBEst和Unigene,TIGR的gene indices、STACK的建立以及大的科研机构的撒网式高通量分析。想通过EST找到新的gene的可能性非常低。”

90年代末那时,我们实验室就做了电子拼接,好不容易发现了几个新的基因,我感觉也是在老外淘过金的矿山上挖金子了!

我认为:现在做电子拼接可以把它作为比较成熟的一种生物信息学手段(尽管它还有待提高)来使用,我们应该把眼光放在更深入的科学问题上。现在人类全基因组已揭示,在“可变剪切和已知基因的未知功能上”这些方面确实有很多事要做。电子拼接可以在一些很有意义的STORY中扮演一种默默奉献的角色。

另外我感觉目前,很多数据库数据质量一般,大家拼接时时要以审慎的态度去对待!
  评论这张
 
阅读(1310)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017