Fastx tool kitを用いたフィルタリング (RNAseq)

個人的にはcutadaptやtrimomaticが使いやすいと思いますが、先行研究などと合わせたい場合に使用することがあるため、Fastx tool kitに関してまとめてみました！

クオリティの算出
塩基比率の算出
アダプター配列の除去
配列長の調整
クオリティが低い領域を除去
参考

クオリティの算出

[-h] 使い方を表示
[INFILE] input ファイルを指定 (FASTAファイルの場合、塩基比率のみ算出)
[OUTFILE] アウトプットをテキストファイルで出力

fastx_quality_stats [-h] -i [INFILE] -o [OUTFILE]

塩基比率の算出

fastx_nucleotide_distribution_graph.sh -i [input file] -t [title name] [-p] -o [output file]

アダプター配列の除去

fastx_clipper [-h] -a [ADAPTER] -I [min_length] -d [N] [-k] [-c] [-C] [-n] [-v] [-z] -i [INFILE] -o [OUTFILE]

[-h]　ヘルプを表示 [ADAPTER] アダプター配列を指定デフォルトはCCTTAAGG
[min_length]　指定した塩基長より短い場合、解析から除外デフォルトは5
[N]　アダプター配列以降の配列をN数塩基保持？
[-c]　アダプター配列が存在しないリードを解析から除外
[-C] アダプター配列が存在したリードを解析から除外
[-k] アダプター配列だけのリードを報告する？
[-n] Nが存在する配列を保持　デフォルトはNが持つリードを除去
[-v] リード数を報告
[-z] outputファイルをGZIP圧縮する
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定

配列長の調整

fastx_trimmer [-h] -f [first_base] -I [last_base] [-z] [-v] -i [INFILE] -o [OUTFILE]

[-h]　ヘルプを表示
[first_base] 指定した塩基以降を保持する　デフォルトは1 (１塩基目)
[last_base] 指定したlast_base以降の塩基を除去　デフォルトは全塩基を保持
[-z]　GZIP　で圧縮
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定

クオリティが低い領域を除去

fastq_quality_filter [-h] [-v] -q [min_quality] -p [min_quality_percent] [-z] -i [INFILE] -o [OUTFILE]

[-h]　ヘルプを表示
[min_quality]　N以下のクオリティ塩基を除去する
[min_quality_percent] [min_quality] 以下のクオリティ塩基がN％以上のリードを除去
[-z]　GZIP形式で圧縮
[INFILE] input ファイルを指定
[OUTFILE] output ファイルを指定
[-v]　リード数を報告する

参考

hannonlab.cshl.edu

bi.biopapyrus.jp

pythonってすごいね

RNAseqを用いた遺伝子発現量解析、機械学習を用いた回帰、分類などの解析を中心に記事を書いていきたいです！

Fastx tool kitを用いたフィルタリング (RNAseq)

個人的にはcutadaptやtrimomaticが使いやすいと思いますが、先行研究などと合わせたい場合に使用することがあるため、Fastx tool kitに関してまとめてみました！