pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

シングルセル解析におけるCSVファイルの取り込み(scanpy)

シングルセル解析を行う際、scanpyを使った解析をよく見ます。その中で、CSVファイルを取り込む方法が、情報として少なかったため、まとめて見ました。

通常の解析に関しては、【Python】Scanpyを使った single cell RNA解析 - ばいばいバイオに詳しく書かれています。

Scanpyとは?

Scanpy is a scalable toolkit for analyzing single-cell gene expression data built jointly with anndata. 

シングルセル用のデータ解析ツールであり、anndata形式に対応している。

Scanpyより引用

Adataとは?

Scanpyより引用

デモデータを参考にすると、
var_namesには遺伝子名が入ります。
.obsには細胞名やクラスタリング後のクラスター番号が加えられます。
.Xには、数値データのみが入り、マトリックス形式となっています。

scanpyを用いて解析途中のデータを保存する際は、拡張子をh5adにし、保存する方がその後の解析がしやすそうです。

COVID-19のdatasetsもh5adらしい 2020/09/26現在

/
adata.write(file_path, compression='gzip') #ファイルの拡張子を変えて、ファイル形式を指定できる compressionは圧縮形式を指定
/

CSVファイルの取り込み

    adata = sc.read(file_path, cache =True) #loading csv faster than pd.csv
    adata.obs=adata.obs.reset_index(drop=True) #resetting adata.obs なぜかエラーが出てくる



    cell_type=pd.read_csv(File_Path[2],delimiter="\t")
    adata.obs['cell_type']=cell typeのリスト #obsにcell typeを入れる
    
    gene_id=pd.read_csv(File_Path[3],delimiter="\t")
    adata.var['gene_id']=Gene_idのリスト #varにgene idを入れる

参考

Scanpy
adata