如何处理fastqc报告中duplication level报错的问题

该问题已被锁定！

3: 关注

4396: 浏览

如何处理fastqc报告中duplication level报错的问题

问题求解

测序数据进行fastqc，发现duplication level出错，查看网上说可能是建库过程中PCR反应的问题，但是后期可以处理，具体怎么处理没有找到相关的资料，还请大家帮帮忙！顺便问一哈fastx_trimmer如何把reads变得一样长，如果想要目的片段最终分布在150左右的话，命令是下面这样吗？ fastx_trimmer -f 1 -l 150 -i B3.fastq -o B3mtrimmer.fastq 这样写命令的话，会让本身长度不够150的也变成150吗？

好问题 0 评论收藏举报

2 回答

米婷婷前台管理员用户来自于: 北京市
2018-08-23 20:59

[size=14]fastx_trimmer是为了去掉测序质量不好的两端序列并且统一所有reads的长度，所以只能按照你最终要求的长度来切而不可能去补平，根据fastqc的结果看首尾两端质量较差的片段有多长再决定 -f 和 -l 参数，比如说我的测序长度是150bp, cutadapt 去除完低于135bp的reads丢掉，然后进行trim，-f 11 -l 135, 也就是要11bp到135bp中间的序列，最终长度为125bp, 也可以先trim然后再cutadapt，目的都是为了得到测序质量高的中间部分；RNA-Sequence一般来说不考虑去除duplicate reads, 但是你这个看起来好像确实比较严重，需不需要去还是大神们来解惑；建议你看一下群主的live，“如何入门生物信息学”，这个流程讲得非常清楚[/size]

赞同 3 0评论

孟浩巍超级管理员用户来自于: 北京市
2018-08-23 20:49

首先，对于FastQC duplication衡量的问题，应该先考虑是什么建库方式。是DNA重测序，还是RNA-Seq，如果是RNA-Seq duplication level报警是很容易的，因为很多gene存在多拷贝的情况。其次，那么这个duplication到底严不严重，或者后续怎么处理呢，目前没有唯一的定论。但是有这么几个原则： [list] [*]RNA-Seq一般不去duplication，除非是设计了UMI或者random barcode，如果设计了这些序列，在reads水平进行去duplication，单端reads推荐seqkit工具，双端测序推荐UniqFast去reads的duplication；[/*] [*]DNA-Seq一般在比对完以后，用picard 里面的MarkDuplicates 模块去duplication；[/*] [*]DNA测序中，酶切打断一般去duplication，超声打断一般不去 duplication；[/*] [*]常见的ChIP-Seq不需要去duplication。[/*] [/list] 最后，具体的问题需要具体的分析。以上。

赞同 2 3评论

关于作者

: windowft 注册会员
这家伙很懒，还没有设置简介

2: 回答

0: 文章

4: 问题

问题动态

发布时间: 2018-08-23 19:25

更新时间: 2018-08-23 20:59

关注人数: 3 人关注