7 55106640 55286915 G11_peak_65724by 737 . 26.7539 77.7117 73.7582 16090
7 55106640 55286915 G11_peak_65724bz 307 . 14.4734 33.9395 30.757 16453
7 55106640 55286915 G11_peak_65724ca 513 . 20.6136 54.9173 51.3116 16674
7 55106640 55286915 G11_peak_65724cb 704 . 25.8767 74.3623 70.4538 16969
7 55106640 55286915 G11_peak_65724cc 363 . 16.2278 39.7125 36.3994 17256
7 55106640 55286915 G11_peak_65724cd 335 . 15.3506 36.8016 33.5531 17517
7 55106640 55286915 G11_peak_65724ce 349 . 15.7892 38.2511 34.9702 17647
请教一下,这个是ATACseq数据利用macs2进行peak calling的narrowpeak文件(阈值q0.01),这个区域被识别成一个大于180k长度的peak,利用igv看这个区域整体的reads覆盖都比较高,这种情况可以怎么处理吗
2 回答
基因组的一些位置,就是非常容易出现高覆盖的区域,一般都是一些simple repeat或者SINE LINE LTR区域,你可以去看看是不是这些区域?如果是这些区域,直接删除不要即可。
另外就是,你可以统计一下你call peak出来的平均长度,中位数长度分别是多少?注意在统计的时候,像你这种1个区域报告多个peak summit的情况,要只计算1次。一般ATAC-seq的peak都不会很长,很少超过5Kbp的长度,一般中位数长度都是1Kbp以内。所以,如果发现中位数长度过长,可能就是ATAC-seq没做好。
另外,就是一定要计算一下ATAC-seq的两个最关键的指标,一个是 TSS-score,另外就是看insert fragment是不是能出现核小体200bp的重复波动。如果这两个都不行,那大概率是建库失败。
对于这种情况,可以考虑以下几种处理方式:
综合考虑以上因素,可以更准确地确定如何处理这个高reads覆盖的大peak。
这家伙很懒,还没有设置简介