使用bwa index 时遇到问题

2: 关注

3323: 浏览

BWA

在使用bwa index chr1.fa给参考基因组构建索引的时候，遇到问题，日志如下：

[bwa_index] Pack FASTA... 6.32 sec
[bwa_index] Construct BWT for the packed sequence...
[bwa_index] 0.00 seconds elapse.
[bwa_index] Update BWT... 0.00 sec
[bwa_index] Pack forward-only FASTA... 6.15 sec
[bwa_index] Construct SA from BWT and Occ... 0.01 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index chr1.fa
[main] Real time: 12.711 sec; CPU: 12.488 sec

结果文件如下：并没有构建起来索引。

-rw-rw-r-- 1 liurj 56 Jul 27 16:13 chr1.fa.sa -rw-rw-r-- 1 liurj 6 Jul 27 16:13 chr1.fa.amb -rw-rw-r-- 1 liurj 7 Jul 27 16:13 chr1.fa.ann -rw-rw-r-- 1 liurj 2 Jul 27 16:13 chr1.fa.pac -rw-rw-r-- 1 liurj 72 Jul 27 16:13 chr1.fa.bwt -rw-rw-r-- 1 liurj 2.3G Jul 25 10:36 chr1.fa

尝试使用bwa index -a bwtsw chr1.fa构建索引，得到以下报错：

[bwa_index] Pack FASTA... 6.40 sec
[bwa_index] Construct BWT for the packed sequence...
Floating point exception (core dumped)

一共12条染色体，1-5超过2个G，6-12少于2个G，1-5没有构建起来而6-12构建起来了，猜测是不是染色体序列超过2个G的关系。但是一个文件已经是一条序列了，除了切割序列还有什么其他的方法可以解决吗，切割序列的话一条染色体又应该怎么处理呢？

染色体大小如下：

-rw-rw-r-- 1 liurj 1.4G Jul 25 10:55 chr12.fa
-rw-rw-r-- 1 liurj 1.6G Jul 25 10:53 chr11.fa
-rw-rw-r-- 1 liurj 1.7G Jul 25 10:52 chr10.fa
-rw-rw-r-- 1 liurj 2.0G Jul 25 10:51 chr9.fa
-rw-rw-r-- 1 liurj 2.0G Jul 25 10:50 chr8.fa
-rw-rw-r-- 1 liurj 2.0G Jul 25 10:49 chr7.fa
-rw-rw-r-- 1 liurj 2.0G Jul 25 10:47 chr6.fa
-rw-rw-r-- 1 liurj 2.1G Jul 25 10:46 chr5.fa
-rw-rw-r-- 1 liurj 2.1G Jul 25 10:44 chr4.fa
-rw-rw-r-- 1 liurj 2.2G Jul 25 10:43 chr3.fa
-rw-rw-r-- 1 liurj 2.2G Jul 25 10:38 chr2.fa
-rw-rw-r-- 1 liurj 2.3G Jul 25 10:36 chr1.fa

好问题 2 评论收藏举报

1 回答

chatGPT机器人机器人用户来自于: IANA
2023-07-27 16:44

根据你提供的信息，问题是使用bwa index构建参考基因组索引时遇到问题。根据日志和结果文件，可以看到索引文件并没有成功构建起来。而尝试使用bwa index -a bwtsw构建索引时出现了浮点异常错误。你怀疑问题是因为染色体序列大小超过了2GB的限制。在这种情况下，你可以考虑对染色体序列进行切割，以便每个切片都小于2GB。使用bwa index构建索引时，可以将切割后的序列文件作为输入，分别构建索引。然后，将每个切片的索引文件合并成一个完整的索引文件。切割序列的方法可以使用工具如samtools进行操作。你可以使用以下命令将染色体序列切割成多个小片段： ``` samtools faidx chr1.fa ``` 这将生成一个chr1.fa.fai索引文件，其中包含了染色体的每个切片的位置信息。然后，你可以使用samtools的faidx命令和这个索引文件来提取每个切片的序列。例如，使用以下命令提取第一个切片的序列： ``` samtools faidx chr1.fa chr1:1-200000000 > chr1_part1.fa ``` 然后，你可以使用bwa index构建每个切片的索引： ``` bwa index chr1_part1.fa ``` 重复这个过程，为每个切片构建索引。最后，你可以使用bwa merge命令将所有切片的索引文件合并成一个完整的索引文件： ``` bwa merge chr1.fa.bwt chr1_part1.fa.bwt chr1_part2.fa.bwt ... ``` 这样，你就可以解决超过2GB限制的问题，并成功构建参考基因组的索引。希望这个解决方案对你有帮助！

赞同 0 0评论

关于作者

: loooooooop 注册会员
这家伙很懒，还没有设置简介

0: 回答

0: 文章

2: 问题

问题动态

发布时间: 2023-07-27 16:37

更新时间: 2023-07-27 16:44

关注人数: 2 人关注