大背景:最近有需要TCGA数据库和自己的结果做一次cross reference
背景:本人作为“录播党”,但经常因为种种原因成为“没看党”。如果小伙伴有发现孟叔授课的时候有讲过我陈述的问题还望迅速指出。。。。。
正题:
TCGA的数据库还是很人性的,可以直接根据目标获取下载某一种癌症,且normalized过的结果。录入Rstudio以后
第一列赫然:好呗,
[attach]60[/attach]
entrizID。无论是用accession_ID还是Refseq_ID,都要做转化。
随手PY了一下孟叔,得知了org.Hs.eg.db包,顺带还有群共享的代码:
[attach]58[/attach]
load package没问题,example list也没问题,keytype?好吧,这是个问题先记下来。accession to enrizid/gene_name,mapID应该是个指令,那为啥还要接org.Hs.eg.db?大概也是标准语句吧。
巴拉巴拉看完了,问题小本本也记了几个。回想起刚开始和孟叔学生信的时候各种-h指令用的飞起,很多孟叔live上没有提,但是也挺实用的指令赫然在目。于是满怀期待的我打开了该包的说明文件,想想也就是爬一下文的事而已。
但是!
[attach]61[/attach]
黑人问号?这个包的总页想表述个啥愣是没看懂。好吧,先找找我要的功能:entrez ID → accession ID
[attach]62[/attach]
我直接跳到了example代码段。好吧,大概,org.Hs.egACCNUM是指令?但是,我也没见过把指令直接赋值的啊。还是说x<-org.Hs.egACCNUM等值于孟叔那个example list。convert to a list,没问题。然后,然后我就懵了?xx不是一个list么xx[[1]]你get到了first one 然后就没了?下一页就这么没了?好吧,孟叔那个代码有个mapids指令我来搜一搜
[attach]59[/attach]
。。。。。。。
我凌乱了。。。。
所以用org.Hs.eg.db的包该怎么做转换。。。。
PS: 我扫完了该包的说明文件感觉该包对于map的功能还是比较强大的,但是标准语句只有第一行根据需求x<-org.Hs.egXXXXXXX有区别,所以可能要了解清楚该标的标准语言才能发挥作用吧。
PPS: 其实想通过这个事例告诉各位小伙伴,有时候-h或者查看说明文件确实能解决问题,奈何我一只脚刚跨进生信然后就被绊倒了。。。
PPPS: 我才不会说我是忘了怎么用循环录入表格的列元素呢。。。。
PPPPS: microsoft r open虽然在运算速度上有优势,但bioconductor的core包居然装不了你敢信?
阅读全文
收起全文