SAMファイルの変換(RNAseq)
マッピング後の処理(SAM、BAM)
samファイルはシーケンスリードがゲノムのどの位置にあるかを記述するファイル形式であり、様々なシーケンス解析のツールで利用されている。samファイルはテキスト形式のデータであり、ファイルサイズが大きくなったり、ソフトウェアから効率的に個々のデータにアクセスすることが難しい。そこでbam形式というバイナリ形式のファイルを作成することで、ファイルサイズの縮小、アクセスの高速化、リードのゲノム座標でのソートによるアクセスの効率化が期待できる。bai形式は bam のインデックスファイルで、このファイルをプログラムが参照することで、効率的に bam file にアクセスできる。
Tips for NGS Data Analysis より引用
マッピング後、SAMファイルができます。このSAMファイルをBAMファイルに変換することで、ファイルサイズを縮小し、cufflinks、stringtieなどを用いてRNA蓄積量を算出することができます。
また、BAMファイルをBEDファイルに変換することでマッピングされたリードの末端情報を取得することができます。
加えて、BAMファイルをソートし、インデックス処理を行うことで、マッピングされたリードをIGVなどを用いて視覚化することができます。
SAMファイルをBAMファイルに変換
samtools view -Sb file.sam > file.bam
BAMファイルをBEDファイルに変換
bedtools bamtobed -i file.bam > file.bed
BAMファイルをソート、インデックスを付加
samtools sort -@ 8 -o file.sort file.bam #bamファイルをソート or samtools sort -@ 8 file.bam -o file #bamファイルをソート(上書きする) samtools index file.sort.bam #インデックスを作成 bam.baiを作成