请教一下,利用scRNA进行某个细胞类型的pseudobulk分析,对单个样本中该细胞类型的细胞数有要求吗?
另外,公众号推文和文献中做差异分析对counts数据处理方案不同,有些对counts数据做的平均(我认为这种比较合理),有的是进行了加和(细胞总数差异很大怎么办),还是说做差异的工具edgeR会校正这个问题?
如果想对pseudobulk数据进行降维聚类,是不是利用标化后的data数据更合理?
3 回答
各类差异比较算法算法,包括DESeq2、EdgeR等,在进行差异比较的时候,都对数据进行标准化处理,一般是用librarySize进行归一。你在实际操作的时候,注意阅读帮助文档,看不同软件对数据矩阵的要求是什么。
1.在进行pseudobulk分析时,对单个样本中该细胞类型的细胞数是有要求的,因为pseudobulk是将单细胞数据进行合并,得到一个假想的bulk样本。如果该细胞类型的细胞数过少,会影响pseudobulk的准确性。
2.在进行差异分析时,对counts数据的处理方案会影响结果。对counts数据进行平均是一种比较合理的方法,但是有些情况下细胞总数差异很大,此时进行加和可能更为合适。不过,在使用edgeR等差异分析工具时,会自动校正这个问题。
3.在对pseudobulk数据进行降维聚类时,利用标化后的data数据更为合理。因为标准化后的数据可以消除不同样本之间的批次效应,使得数据更具可比性。
这家伙很懒,还没有设置简介