シングルセル解析におけるCSVファイルの取り込み(scanpy)
シングルセル解析を行う際、scanpyを使った解析をよく見ます。その中で、CSVファイルを取り込む方法が、情報として少なかったため、まとめて見ました。
通常の解析に関しては、【Python】Scanpyを使った single cell RNA解析 - ばいばいバイオに詳しく書かれています。
Scanpyとは?
Scanpy is a scalable toolkit for analyzing single-cell gene expression data built jointly with anndata.
シングルセル用のデータ解析ツールであり、anndata形式に対応している。
Scanpyより引用
Adataとは?
デモデータを参考にすると、
var_namesには遺伝子名が入ります。
.obsには細胞名やクラスタリング後のクラスター番号が加えられます。
.Xには、数値データのみが入り、マトリックス形式となっています。
scanpyを用いて解析途中のデータを保存する際は、拡張子をh5adにし、保存する方がその後の解析がしやすそうです。
COVID-19のdatasetsもh5adらしい 2020/09/26現在
/ adata.write(file_path, compression='gzip') #ファイルの拡張子を変えて、ファイル形式を指定できる compressionは圧縮形式を指定 /
CSVファイルの取り込み
adata = sc.read(file_path, cache =True) #loading csv faster than pd.csv adata.obs=adata.obs.reset_index(drop=True) #resetting adata.obs なぜかエラーが出てくる cell_type=pd.read_csv(File_Path[2],delimiter="\t") adata.obs['cell_type']=cell typeのリスト #obsにcell typeを入れる gene_id=pd.read_csv(File_Path[3],delimiter="\t") adata.var['gene_id']=Gene_idのリスト #varにgene idを入れる