去除批次效应过程:对不同样品间的相对表达量(logCPM)进行平移校正,批次效应校正后(integrated)只剩下2000个HVG,及其对应的data(logCPM)和scale.data(中心化data)。再进行亚群分析的时候,该采用什么策略呢?
策略1:沿用大群的2000个HVGs,调整PC和resolution,进行分群。
困惑的问题:2000个HVGs并不是目标细胞群中差异变化的基因。细胞亚群分析特征基因分析的时候,如果使用FindAllmaker函数,对原始RNA count进行分析,细胞群特征显示很差。
策略2:亚群分析的时候不考虑批次效应,从头进行Normalize,HVG筛选,scale化分析,聚类。(这种是否可行?获得的亚群是否过于散乱?)
策略3:将目标细胞群作为整体,再以样本为单位进行批次效应校正,聚类和分群?(这个看起来似乎比较科学)
分群之前不建议做scale,scale的目的主要是统一量纲,然后把方差影响缩小;
一般分群都是要用类似harmony的方法进行整合,整合后主要是为了画图;最后在分群找marker gene的时候还是要用raw count去找。
具体找marker gene的时候,如果是一些成熟体系分群,比如血液的PBMC,已经有非常好的reference,你就照着reference分即可;哪怕是没有很好的reference,都这个年代了,大概率你也不会是第一个搞某个体系分群的人,主要还是要结合过往单细胞的数据去参考;一种极特殊的情况,就是确实之前没人做过你这个单细胞体系的分群,这个时候你主要就应该以以往流式细胞分选分细胞类型的文献为主。
所以,绘图和找marker不是一步的,是两步。
这家伙很懒,还没有设置简介