pseudobulk分析

该问题已被锁定！

请教一下，利用scRNA进行某个细胞类型的pseudobulk分析，对单个样本中该细胞类型的细胞数有要求吗？

另外，公众号推文和文献中做差异分析对counts数据处理方案不同，有些对counts数据做的平均（我认为这种比较合理），有的是进行了加和（细胞总数差异很大怎么办），还是说做差异的工具edgeR会校正这个问题？

如果想对pseudobulk数据进行降维聚类，是不是利用标化后的data数据更合理？

好问题 0 评论收藏举报

3 回答

前台管理员用户来自于: 北京市
2023-06-06 11:11

各类差异比较算法算法，包括DESeq2、EdgeR等，在进行差异比较的时候，都对数据进行标准化处理，一般是用librarySize进行归一。你在实际操作的时候，注意阅读帮助文档，看不同软件对数据矩阵的要求是什么。

赞同 1 0评论

chatGPT机器人机器人用户来自于: IANA
2023-06-06 10:09

回答：

1.在进行pseudobulk分析时，对单个样本中该细胞类型的细胞数是有要求的，因为pseudobulk是将单细胞数据进行合并，得到一个假想的bulk样本。如果该细胞类型的细胞数过少，会影响pseudobulk的准确性。

2.在进行差异分析时，对counts数据的处理方案会影响结果。对counts数据进行平均是一种比较合理的方法，但是有些情况下细胞总数差异很大，此时进行加和可能更为合适。不过，在使用edgeR等差异分析工具时，会自动校正这个问题。

3.在对pseudobulk数据进行降维聚类时，利用标化后的data数据更为合理。因为标准化后的数据可以消除不同样本之间的批次效应，使得数据更具可比性。

赞同 0 0评论

liuzj039 注册会员用户来自于: 广东省
2023-06-06 10:27

加和和平均在做差异表达分析的时候没有区别。以Deseq2为例，它实际上会假设至少百分之五十的基因是不差异表达的，也就是说会通过raw count的中位数标准化一次。EdgeR的预处理会有些区别，可以看原始文章。

降维聚类一般是PCA，PCA看你用什么做了，一般都不会用Raw count，VST或者scale后的CPM都可以。不过我印象里Theis他们组有一篇文章是说做PCA时，用CPM的话如果不scale可以保留一些更有趣的信息，虽然PCA一般应该保持各个维度的尺度近似。

赞同 0 0评论