pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

SAMファイルの変換(RNAseq)

マッピング後の処理(SAM、BAM)

samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファイル形式であり、様々なシーケンス解析のツールで利用されている。samファイルはテキスト形式のデータであり、ファイルサイズが大きくなったり、ソフトウェアから効率的に個々のデータにアクセスすることが難しい。そこでbam形式というバイナリ形式のファイルを作成することで、ファイルサイズの縮小、アクセスの高速化、リードのゲノム座標でのソートによるアクセスの効率化が期待できる。bai形式は bam のインデックスファイルで、このファイルをプログラムが参照することで、効率的に bam file にアクセスできる。

Tips for NGS Data Analysis より引用

マッピング後、SAMファイルができます。このSAMファイルをBAMファイルに変換することで、ファイルサイズを縮小し、cufflinks、stringtieなどを用いてRNA蓄積量を算出することができます。

また、BAMファイルをBEDファイルに変換することでマッピングされたリードの末端情報を取得することができます。

加えて、BAMファイルをソートし、インデックス処理を行うことで、マッピングされたリードをIGVなどを用いて視覚化することができます。

SAMファイルをBAMファイルに変換

samtools view -Sb file.sam > file.bam

BAMファイルをBEDファイルに変換

bedtools bamtobed -i file.bam > file.bed

BAMファイルをソート、インデックスを付加

samtools sort -@ 8 -o file.sort file.bam #bamファイルをソート
or
samtools sort -@ 8 file.bam -o file #bamファイルをソート(上書きする)

samtools index file.sort.bam #インデックスを作成 bam.baiを作成

参考

Tips for NGS Data Analysis

bedtools

samtools