pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

SRAからシーケンスデータをダウンロードする(RNAseq)

NCBI Sequence Read Archive (SRA) とは?

Sequence Read Archive (SRA) data, available through multiple cloud providers and NCBI servers, is the largest publicly available repository of high throughput sequencing data. SRA stores raw sequencing data and alignment information to enhance reproducibility and facilitate new discoveries through data analysis.

Sequence Read Archive (SRA) データは、複数のクラウドプロバイダー、NCBI サーバーを介して利用可能で、一般に公開されている中でハイスループットシーケンシングデータを扱う最大のリポジトリです。SRAは、生シーケンシングデータとアラインメント情報を保存することで、再現性を高め、データ解析による新たな発見を促進します。

NCBIより引用

sratoolkitのインストール

brew install sratoolkit

ファイルのダウンロード、変換

prefetch SRR number (e.g. SRR7652713)

シングルエンド(SE)
fastq-dump --gzip directory_of_SRR

ペアエンド(PE)
fastq-dump --gzip --split-files directory_of_SRR

参考

EdwardsLab