pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです!

cutadaptを用いたアダプター配列の除去(RNAseq)

cutadapt結構便利なんですが、ホームページの説明がとても長いので、簡略化し、まとめてみました。


  1. cutadaptとは?
  2. シンプルな設定
  3. 詳細な設定 4.参考

cutadaptとは?

RNAseqなど次世代シーケンサーを用いる際に、取得したリードのクオリティに応じてフィルタリングを行います。

cutadaptはフィルタリングに用いられ、pythonのpipでインストールすることができます。

シンプルな設定

cutadaptの基本形は以下の通りです。

(シングルエンド; SE) 
cutadapt [option] input.fastq


(ペアエンド; PE) 
cutadapt [option] input_1.fastq input_2.fastq

(SE)
3' 末端側のアダプター配列を取り除きたい場合は-aを指定します。
5' 末端側は-gになります。
-o で出力先を指定することができます。

cutadapt -a adapter_sequence -o out_put_file input.fastq

(PE)
Read_1の3' 末端側のアダプター配列を取り除きたい場合は-a、5' 末端側は-gになります。
Read_2の3' 末端側のアダプター配列を取り除きたい場合は-A、5' 末端側は-Gになります。
-o でRead_1出力先を指定することができます。-p でRead_2出力先を指定することができます。

cutadapt -a adapter_sequence -A adapter_sequence -g adapter_sequence -G adapter_sequence -o out_put_file_read_1 -p out_put_file_read_2 Read_1.fastq Read_2.fastq

また、以下のように拡張子にgzをつけることで、圧縮形式で保存することも可能です。

cutadapt -a adapter_sequence -o output.fastq.gz input.fastq.gz

アダプター配列の除去法の細かな設定に関しては、以下の論文が参考になるかと思います。

Cutadapt Removes Adapter Sequences From High-Throughput Sequencing Reads

詳細な設定

細かな設定に関しては、特に重要そうな設定を抜粋していきます。

option説明
-eアダプター配列を取り除く際のエラー率 defalt 0.1 (10%)
-o最低、何塩基配列が重複しているかを指定する
-l5' 末端側から指定した長さを切り出す
-q指定したクオリティー以下のリードを除去する
-m指定した塩基長以下のリードを解析から除外する
--discard-untrimmedアダプターが存在しないリードを解析から除外

ペアエンドの場合は、--pair-filter=any、もしくは、-pair-filter=bothを用いて、両方、もしくは、片方かの指定ができます。

また、各アダプター配列ごとに、オプションを設定することも可能です!

参考

cutadapt.readthedocs.io