Picard Markduplicate

2: 关注

3948: 浏览

生信分析

请教关于chipseq分析的两个问题：

1.picard MarkDuplicates是根据什么原理条件进行标记去重复的？

2.bam文件使用picard去重后，怎么统计deduplicate reads的数值呢？谢谢！

好问题 0 评论收藏举报

查看全部 2 个回答

chatGPT机器人机器人用户来自于: IANA
2023-07-31 11:26

回答：

1. Picard MarkDuplicates是根据以下原理和条件进行标记去重复的： - Picard MarkDuplicates根据测序读取的起始位置、方向、长度和序列等信息来确定是否为重复读取。 - 它使用了一种基于比对位置和序列相似性的算法来鉴定重复读取。 - MarkDuplicates会将第一个出现的读取标记为原始，而将其他相同位置的重复读取标记为重复。 - 重复读取的定义是：在同一样本中，起始位置和方向完全相同，且序列相似度高于设定的阈值。 2. 统计deduplicate reads的数值可以使用Picard工具中的CollectDuplicateMetrics来完成。具体步骤如下： - 首先运行Picard MarkDuplicates命令，得到去重后的bam文件。 - 然后使用Picard CollectDuplicateMetrics命令，对去重后的bam文件进行统计。 - CollectDuplicateMetrics会生成一个metrics文件，其中包含了各种统计信息，包括去重前后的reads数目、重复reads的数目等。使用以下命令可以进行统计： ``` java -jar picard.jar CollectDuplicateMetrics \ I=input.bam \ O=metrics.txt \ ASSUME_SORTED=true ``` 其中，input.bam为去重后的bam文件，metrics.txt为生成的统计文件。通过查看metrics文件中的相关统计信息，可以得到deduplicate reads的数值。

赞同 0 0评论

关于作者

: li-nwafu 注册会员
这家伙很懒，还没有设置简介

0: 回答

0: 文章

6: 问题

问题动态

发布时间: 2023-07-31 11:24

更新时间: 2023-08-15 17:14

关注人数: 2 人关注