cutadaptを用いたアダプター配列の除去(RNAseq)
cutadapt結構便利なんですが、ホームページの説明がとても長いので、簡略化し、まとめてみました。
cutadaptとは?
RNAseqなど次世代シーケンサーを用いる際に、取得したリードのクオリティに応じてフィルタリングを行います。
cutadaptはフィルタリングに用いられ、pythonのpipでインストールすることができます。
シンプルな設定
cutadaptの基本形は以下の通りです。
(シングルエンド; SE) cutadapt [option] input.fastq (ペアエンド; PE) cutadapt [option] input_1.fastq input_2.fastq
(SE)
3' 末端側のアダプター配列を取り除きたい場合は-aを指定します。
5' 末端側は-gになります。
-o で出力先を指定することができます。
cutadapt -a adapter_sequence -o out_put_file input.fastq
(PE)
Read_1の3' 末端側のアダプター配列を取り除きたい場合は-a、5' 末端側は-gになります。
Read_2の3' 末端側のアダプター配列を取り除きたい場合は-A、5' 末端側は-Gになります。
-o でRead_1出力先を指定することができます。-p でRead_2出力先を指定することができます。
cutadapt -a adapter_sequence -A adapter_sequence -g adapter_sequence -G adapter_sequence -o out_put_file_read_1 -p out_put_file_read_2 Read_1.fastq Read_2.fastq
また、以下のように拡張子にgzをつけることで、圧縮形式で保存することも可能です。
cutadapt -a adapter_sequence -o output.fastq.gz input.fastq.gz
アダプター配列の除去法の細かな設定に関しては、以下の論文が参考になるかと思います。
Cutadapt Removes Adapter Sequences From High-Throughput Sequencing Reads
詳細な設定
細かな設定に関しては、特に重要そうな設定を抜粋していきます。
option 説明 -e アダプター配列を取り除く際のエラー率 defalt 0.1 (10%) -o 最低、何塩基配列が重複しているかを指定する -l 5' 末端側から指定した長さを切り出す -q 指定したクオリティー以下のリードを除去する -m 指定した塩基長以下のリードを解析から除外する --discard-untrimmed
アダプターが存在しないリードを解析から除外