知道一批基因的具体位置，如何批量的从基因组中取出基因序列？

该问题已被锁定！

3: 关注

3378: 浏览

知道一批基因的具体位置，如何批量的从基因组中取出基因序列？

从基因组上获取序列

Chr1 28552 28655 ath-MIR838 255 + Chr1 78931 79030 ath-MIR165a 255 - Chr1 234016 234146 ath-MIR2112 255 - Chr1 1653220 1653624 ath-MIR5640 255 - Chr1 1727262 1727415 ath-MIR5656 255 +如上面信息，知道基因的染色体，和在染色体上的开始结束位置，如何取出基因组上对应位置的碱基序列？

好问题 0 评论收藏举报

2 回答

孟浩巍超级管理员用户来自于: 北京市
2018-09-19 20:46

方法有很多，我说一个在R里操作的办法吧。 1. 首先先使用Bioconductor安装GenomicRange包以及对应物种的BSgenome包，比如你这里应该是拟南芥。 2. 然后把你的区间，构建成GRange对象 3. 直接使用getSeq提取序列 [code]> library(BSgenome.Athaliana.TAIR.TAIR9) > library(GenomicRanges) > input_range = GRanges(seqnames = c("Chr1","Chr1"), + ranges = IRanges(start = c(28552,78931),end = c(28655,79030)), + id = c("ath-MIR838","ath-MIR165a"), + strand = c("+","-")) > input_range GRanges object with 2 ranges and 1 metadata column: seqnames ranges strand | id | [1] Chr1 [28552, 28655] + | ath-MIR838 [2] Chr1 [78931, 79030] - | ath-MIR165a ------- seqinfo: 1 sequence from an unspecified genome; no seqlengths > getSeq(BSgenome.Athaliana.TAIR.TAIR9,input_range) A DNAStringSet instance of length 2 width seq [1] 104 GTGCAAGAAGGAGAAGCAAAGTCTGTCTATGTATTATGAGATAGCTACTTCTATGGCTAGGATATATGTTGTACAAGACCGGCTTTTCTTCTACTTCTTGCACA [2] 100 GGAATGTTGTCTGGATCGAGGATATTATAGATATATACATGTGTATGTTAATGATTCAAGTGATCATAGAGAGTATCCTCGGACCAGGCTTCATCCCCCC[/code]

赞同 2 0评论

城管大队哈队长初级会员用户来自于: 中国
2018-09-19 21:09

制作成bed文件，用bedtools的getfasta即可。楼主你的文件应该就是bed格式了。改个bed后缀直接用就行。

赞同 2 0评论

关于作者

: restpop 注册会员
这家伙很懒，还没有设置简介

0: 回答

0: 文章

1: 问题

问题动态

发布时间: 2018-09-19 20:27

更新时间: 2018-09-19 21:09

关注人数: 3 人关注